Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο...

58
1 Θεωρίες για τις μετρήσεις στην Εκπαιδευτική Έρευνα Θάνος Βέρδης Η κλασική θεωρία των μετρήσεων Η ΕΝΝΟΙΑ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΣΚΟΡ Η πρώτη θεωρία με την οποία οι ψυχομέτρες προσέγγισαν τις λανθάνουσες μεταβλητές και ιδιαίτερα την έννοια της νοημοσύνης ήταν η Θεωρία του Πραγματικού Σκορ ή αλλιώς η Κλασική Θεωρία των μετρήσεων. Η θεωρία αυτή αναπτύχθηκε ως εξέλιξη των πρώτων τεστ νοημοσύνης. Το «πραγματικό σκορ» στην κλασική θεωρία των μετρήσεων είναι ένας αριθμός και συγκεκριμένα ο αριθμητικός μέσος όρος των παρατηρούμενων σκορ που θα βρίσκαμε αν επαναλαμβάναμε το ίδιο τεστ πολλές φορές στους ίδιους μαθητές. Ας υποθέσουμε ότι κάναμε στους μαθητές μας ένα τεστ ορθογραφικής ικανότητας. Τη μία ημέρα μπορεί οι μαθητές μας να ήταν κουρασμένοι και να μην απέδωσαν καλά ή αντίθετα την επόμενη ημέρα να απέδωσαν καλά λόγω τύχης. Έτσι, αν το καθημερινό παρατηρούμενο σκορ του μαθητή είναι x και η πραγματική γνώση ορθογραφίας είναι , η καθημερινή διαφορά μεταξύ τους είναι Ε και ισχύει ότι x e . Η Κλασική Θεωρία των Τεστ είναι η θεωρία του αληθινού σκορ και των σφαλμάτων. Σύμφωνα με αυτήν, κάθε μέτρηση στις επιστήμες του ανθρώπου εμπεριέχει ένα αληθινό σκορ και ένα σφάλμα, το οποίο μπορεί να είναι τυχαίο ή και συστηματικό. Οι στατιστικολόγοι έχουν αποδείξει ότι το σφάλμα είναι το ίδιο ανεξάρτητα αν εφαρμόζουμε το τεστ μία φορά σε ένα πλήθος συμμετεχόντων ή πολλές φορές σε έναν και μόνο συμμετέχοντα (βλ. Allen, M.J., & Yen, 2002). Η διακύμανση των μετρήσεων είναι στην ουσία η διακύμανση του πραγματικού σκορ συν τη διακύμανση του σφάλματος. H αξιοπιστία ενός τεστ, η οποία συμβολίζεται με R, αποδεικνύεται ότι είναι 1 var( ) / var( ) R E X και ότι var(T) var(X) R . Άρα, αν γνωρίζουμε την αξιοπιστία και τη διακύμανση στο παρατηρούμενο σκορ μπορούμε να προσεγγίσουμε το πραγματικό σκορ. Όσο περισσότερα ερωτήματα έχει ένα τεστ τόσο μεγαλώνει η αξιοπιστία του και τόσο περισσότερο προσεγγίζουμε το πραγματικό σκορ.

Transcript of Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο...

Page 1: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

1

Θεωρίες για τις μετρήσεις στην Εκπαιδευτική Έρευνα

Θάνος Βέρδης

Η κλασική θεωρία των μετρήσεων

Η ΕΝΝΟΙΑ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΣΚΟΡ

Η πρώτη θεωρία με την οποία οι ψυχομέτρες προσέγγισαν τις λανθάνουσες μεταβλητές και

ιδιαίτερα την έννοια της νοημοσύνης ήταν η Θεωρία του Πραγματικού Σκορ ή αλλιώς η Κλασική

Θεωρία των μετρήσεων Η θεωρία αυτή αναπτύχθηκε ως εξέλιξη των πρώτων τεστ νοημοσύνης

Το laquoπραγματικό σκορraquo στην κλασική θεωρία των μετρήσεων είναι ένας αριθμός και

συγκεκριμένα ο αριθμητικός μέσος όρος των παρατηρούμενων σκορ που θα βρίσκαμε αν

επαναλαμβάναμε το ίδιο τεστ πολλές φορές στους ίδιους μαθητές Ας υποθέσουμε ότι κάναμε

στους μαθητές μας ένα τεστ ορθογραφικής ικανότητας Τη μία ημέρα μπορεί οι μαθητές μας να

ήταν κουρασμένοι και να μην απέδωσαν καλά ή αντίθετα την επόμενη ημέρα να απέδωσαν

καλά λόγω τύχης Έτσι αν το καθημερινό παρατηρούμενο σκορ του μαθητή είναι x και η

πραγματική γνώση ορθογραφίας είναι η καθημερινή διαφορά μεταξύ τους είναι Ε και ισχύει

ότι x e Η Κλασική Θεωρία των Τεστ είναι η θεωρία του αληθινού σκορ και των

σφαλμάτων Σύμφωνα με αυτήν κάθε μέτρηση στις επιστήμες του ανθρώπου εμπεριέχει ένα

αληθινό σκορ και ένα σφάλμα το οποίο μπορεί να είναι τυχαίο ή και συστηματικό Οι

στατιστικολόγοι έχουν αποδείξει ότι το σφάλμα είναι το ίδιο ανεξάρτητα αν εφαρμόζουμε το

τεστ μία φορά σε ένα πλήθος συμμετεχόντων ή πολλές φορές σε έναν και μόνο συμμετέχοντα

(βλ Allen MJ amp Yen 2002) Η διακύμανση των μετρήσεων είναι στην ουσία η διακύμανση του

πραγματικού σκορ συν τη διακύμανση του σφάλματος H αξιοπιστία ενός τεστ η οποία

συμβολίζεται με R αποδεικνύεται ότι είναι 1 var( ) var( )R E X και ότι var(T) var(X) R

Άρα αν γνωρίζουμε την αξιοπιστία και τη διακύμανση στο παρατηρούμενο σκορ μπορούμε να

προσεγγίσουμε το πραγματικό σκορ Όσο περισσότερα ερωτήματα έχει ένα τεστ τόσο

μεγαλώνει η αξιοπιστία του και τόσο περισσότερο προσεγγίζουμε το πραγματικό σκορ

2

Κάθε ερώτημα σε ένα τεστ

μπορεί σύμφωνα με την Κλασική

Θεωρία να θεωρηθεί εύκολο ή

δύσκολο ανάλογα με το πόσοι

συμμετέχοντες το απάντησαν

σωστά Με τον τρόπο αυτόν τα

ερωτήματα διαφέρουν αρχικά ως

προς τη χρησιμότητά τους Όπως

γίνεται εύκολα αντιληπτό αυτά

που απαντιούνται απrsquo όλους και

αυτά που δεν απαντώνται από

κανέναν δεν είναι πολύ χρήσιμα

για τους ερευνητές και θα

μπορούσαν να παραλειφτούν

από το τεστ Στην Κλασική

Θεωρία επίσης κάθε ερώτημα

χαρακτηρίζεται από τη

δυνατότητα διάκρισης που έχει

ανάλογα με το πόσο καλά

διαφοροποιεί τους ικανούς και

τους λιγότερο ικανούς μαθητές Τη δυνατότητα διάκρισης ενός ερωτήματος την υπολογίζουμε

στην Κλασική Θεωρία μέσω της διαφοράς στην παρατηρούμενη βαθμολογία που έχει τριάντα

περίπου τοις εκατό των υψηλότερων βαθμολογιών από το τριάντα τοις εκατό των χαμηλότερων

βαθμολογιών Αυτή η δυνατότητα διάκρισης συνδέεται με τον συντελεστή συσχέτισης κάθε

ερωτήματος με όλα τα άλλα ερωτήματα του τεστ Όσο πιο πολύ σχετίζεται ένα θέμα με όλα τα

άλλα θέματα τόσο μεγαλύτερη αξιοπιστία θεωρείται ότι διαθέτει ένα τεστ Μέσω της Κλασικής

Θεωρίας λοιπόν οι ερευνητές μπορούν να υπολογίσουν το πραγματικό σκορ καθώς και τις

ψυχομετρικές ιδιότητες κάθε μεμονωμένου ερωτήματος ενός τεστ

Η Κλασική Θεωρία όμως έχει ορισμένα προβλήματα Κατrsquo αρχάς προϋποθέτει ότι όλες οι

ερωτήσεις σε ένα τεστ μετρούν το πραγματικό σκορ με τον ίδιο ακριβώς τρόπο Για παράδειγμα

αν έχουμε ένα τεστ ή ένα ερωτηματολόγιο με 10 ερωτήσεις τύπου Likert ndashας υποθέσουμε 1=

laquoλίγοraquo 2= laquoαρκετάraquo 3= laquoπολύraquo και 4= laquoπάρα πολύraquo- υπάρχουν πάνω από ένα εκατομμύριο και

σαράντα οκτώ χιλιάδες πιθανοί συνδυασμοί απαντήσεων Μέσα σε αυτούς τους συνδυασμούς

υπάρχουν πάρα πολλοί συνδυασμοί με τους οποίους μπορεί να πάρει κανείς ένα σκορ ας πούμε

ίσο με 20 Η κλασική θεωρία υποστηρίζει ότι όλοι οι συνδυασμοί που δίνουν σκορ 20 έχουν την

ίδια ουσιαστική βαρύτητα στη μέτρηση της θεωρητικής κατασκευής Αυτό όμως δεν είναι

αλήθεια διότι κάθε ερώτημα συνδέεται με διαφορετικό τρόπο με τη θεωρητική κατασκευή που

θέλουμε να μετρήσουμε Άλλο είναι για παράδειγμα να απαντήσει κάποιος laquoπολύraquo στην

ερώτηση laquoκατά πόσο συμφωνείτε με την πρόσφατη θέσπιση του πολιτικού γάμουraquo και άλλο

είναι να απαντήσει κανείς laquoπολύraquo στην ερώτηση laquoπόσο πιθανό είναι να παντρευτείτε εσείς

προσωπικά με πολιτικό γάμοraquo Αν και θεωρητικά υπάρχει δυνατότητα και στατιστικοί τρόποι

ώστε τα ερωτήματα ενός τεστ να υπολογίζονται με διαφορετικούς συντελεστές βαρύτητας το

καθέναν (πχ μέσω Ανάλυσης Παραγόντων ή μέσω του συντελεστή συνάφειας ενός

ερωτήματος με τα υπόλοιπα ερωτήματα κλπ) η διαφοροποιημένη βαρύτητα δεν επηρεάζει

δομικά το τεστ Μπορεί για παράδειγμα μέσω διαφορετικών συντελεστών βαρύτητας να

πάρουμε διαφορετικά τελικά σκορ για δύο εξεταζόμενους που χωρίς τους συντελεστές θα είχαν

Εικόνα 1 Από το 1925 υπήρχε επίγνωση ότι τα ερωτήματα ενός τεστ

δεν έχουν τον ίδιο βαθμό δυσκολίας Ποσοστά ορθών

ανταποκρίσεων στις δοκιμασίες του τεστ των Binet-Simon σε παιδιά

διαφορετικών ηλικιών (πηγή Thurstone 1925 444) Οι αριθμοί πάνω

στις γραμμές αναφέρονται στον αριθμό των δοκιμασιών

3

δομήσει το ίδιο σκορ διαφορετικά αλλά η εσωτερική εγκυρότητα και αξιοπιστία των αρχικών

ερωτημάτων δεν θα άλλαζε

Ένα άλλο σοβαρό ζήτημα σε σχέση με την κλασική θεωρία είναι ότι οι κλίμακες μέτρησης της

θεωρητικής κατασκευής πρέπει να είναι τουλάχιστον ίσων διαστημάτων και όχι τακτικών τιμών

ή πολύ περισσότερο διχοτομικές (βλ Linacre 2005) Κλίμακες ίσων διαστημάτων είναι αυτές στις

οποίες η κλίμακα μέτρησης έχει ίσα διαστήματα από το ένα σημείο στο άλλο Κλίμακα ίσων

διαστημάτων είναι για παράδειγμα μια κλίμακα που θα μετρούσε την ηλικία ενός μαθητή σε

μήνες ή μια κλίμακα που θα μετρούσε τον αριθμό των λέξεων ενός κειμένου Κλίμακες τακτικών

τιμών ή άνισων διαστημάτων από την άλλη μεριά είναι κλίμακες στις οποίες τα διαστήματα από

μία τιμή στην άλλη δεν είναι ίσα Τέτοιες κλίμακες έχουμε για παράδειγμα κατά την καταγραφή

θετικής ή αρνητικής άποψης σε μια έρευνα διερεύνησης της κοινής γνώμης στις οποίες οι

πιθανές απαντήσεις είναι του τύπου laquoελάχιστα ευχαριστημένοςraquo laquoαρκετά ευχαριστημένοςraquo

laquoπολύ ευχαριστημένοςraquo και laquoπάρα πολύ ευχαριστημένοςraquo Η απόσταση μεταξύ του laquoελάχιστα

ευχαριστημένοςraquo και του laquoαρκετά ευχαριστημένοςraquo δεν είναι ίση με την απόσταση μεταξύ του

laquoπολύ ευχαριστημένοςraquo και του laquoπάρα πολύ ευχαριστημένοςraquo Διχοτομική κλίμακα είναι αυτή

στην οποία οι πιθανές απαντήσεις είναι δύο και σε αντίθετες κατευθύνσεις μεταξύ τους το laquoναιraquo

και το laquoόχιraquo με βάση το αν πέτυχε κάποιος σε ένα τεστ το laquoσωστόraquo και το laquoλάθοςraquo στη γραφή

μιας λέξης το laquoευχαριστημένοςraquo και το laquoδυσαρεστημένοςraquo σε ένα ερωτηματολόγιο κλπ

Η ανάλυση δεδομένων τακτικών τιμών επηρεάζεται από το εύρος των διαθέσιμων επιλογών

Πράγματι τα αποτελέσματα της ανάλυσης είναι πολύ διαφορετικά αν η κλίμακα που

χρησιμοποιούμε έχει λίγες ή περισσότερες πιθανές κατηγορίες Άλλη συσχέτιση έχουν για

παράδειγμα κλίμακες με τέσσερα άνισα διαστήματα και άλλη συσχέτιση έχουν κλίμακες με

οκτώ άνισα διαστήματα Άλλη συμπεριφορά έχουν οι κλίμακες στις οποίες υπάρχει κάποια

μεσαία ή laquoουδέτερηraquo κατηγορία (πχ laquoούτε ευχαριστημένος ούτε δυσαρεστημένοςraquo) και άλλη

συμπεριφορά έχουν οι κλίμακες οι οποίες κατευθύνουν αναγκαστικά τον ανταποκρινόμενο είτε

προς την πλευρά μιας γενικότερης ικανοποίησης είτε προς την πλευρά μιας γενικότερης μη

ικανοποίησης χωρίς τη δυνατότητα κάποιας ουδέτερης ή μεσαίας επιλογής Οι κλίμακες

διαφέρουν επίσης ως προς την ύπαρξη κάποιας laquoμηδενικήraquo κατηγορίας όπως θα ήταν το

laquoκαθόλου ευχαριστημένοςraquo το οποίο διαφέρει σε τεράστιο βαθμό από το laquoλίγο ευχαριστημένοςraquo

και από το υπόλοιπο μέρος της κλίμακας

ΛΑΝΘΑΝΟΥΣΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ

Στο πλαίσιο της κλασικής θεωρίας των μετρήσεων εντάσσονται και κάποιες τεχνικές ανάλυσης

με τις οποίες οι ερευνητές μετρούν λανθάνουσες μεταβλητές δηλαδή μεταβλητές που δεν

παρατηρούνται ευθέως Τέτοιες μεταβλητές έχουν να κάνουν για παράδειγμα με τις στάσεις

και τις προσδοκίες των ανθρώπων τις γνώσεις τους τις συμπεριφορές τους τις δεξιότητές τους

Διάφοροι μελετητές έχουν εκφράσει διαφορετικές απόψεις για το πώς τελικά θα έπρεπε να

εννοούνται οι λανθάνουσες μεταβλητές στην ψυχολογική αλλά και την παιδαγωγική και την

κοινωνική έρευνα Ο Bollen (2002) έχει συγκεντρώσει κριτικά πολλές κατηγορίες ορισμών πριν

δώσει τελικά τον δικό του σύμφωνα με τον οποίο laquoμια τυχαία ή μη τυχαία μεταβλητή

ονομάζεται ldquoλανθάνουσαrdquo όταν κάποιες από τις παρατηρήσεις της δεν πραγματώνονται σε ένα

ορισμένο δείγμαraquo (Bollen ό π 612)

Βασική ιδέα στην κλασική θεωρία της μέτρησης είναι ότι οι παρατηρήσεις συνδέονται με ένα

σύνολο λανθανουσών μεταβλητών οι οποίες έχουν τη μορφή κοινών παραγόντων Επιδίωξη

4

της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς

παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους

όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό

και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα

δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των

παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες

Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι

συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα

τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα

ορίσουν τον αριθμό και τη φύση των f

1 1 11 1 12 2 1 1

2 2 21 12 22 2 2 2

1 1 2 2

q q

q

p p p p pq p

x f f f u

x f f u

x f f u

Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p

παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη

ισότητα γράφεται i i ix =μ + Λf + u με 12i n

Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων

είναι μηδέν δηλαδή ( )E x όταν 1 2

0q

f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι

ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος

όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι

διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν

λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο

μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της

αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η

κατανομή θα είχε περισσότερες διαστάσεις

Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης

ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με

όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι

cov( )x ΤΣ = ΛΛ +Ψ

Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί

παράγοντες f

Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από

κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων

και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από

κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h

5

Η συνολική διακύμανση στα x είναι 2

1

k

ij ij

j

u

Η ποσότητα 2 2

1

k

i ij

j

h

ονομάζεται

ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς

παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη

διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως

δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική

έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό

των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση

παραγόντων τα f είναι πάντα λιγότερα από τα x

Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί

ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών

να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω

κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας

υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη

βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων

Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους

υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί

δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014

Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι

1

1

1logL log ( ) ( )

2 2

n

i

n

i iΣ x - μ Σ x - μ

Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση

παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων

συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της

συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν

μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές

να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι

laquoκύριεςraquo

Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή

που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι

i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά

όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση

παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο

αντίστοιχος πίνακας cov( )i

e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και

της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη

δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις

συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων

συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι

διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της

ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως

6

δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή

συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές

για αντίστοιχες αναλύσεις με τακτικές τιμές

Η νέα θεωρία των μετρήσεων

Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH

Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία

υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις

προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η

Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές

της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick

Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο

Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας

είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από

αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα

οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το

εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα

που θα παρουσιάσουμε πιο κάτω

Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο

οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω

μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια

τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko

Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των

τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock

και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο

Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την

ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό

μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer

επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου

Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων

σημαντική υπήρξε και η συμβολή του Αμερικανού

φυσικού Benjamin Wright ο οποίος ήταν από τους

πρώτους που χρησιμοποίησαν ηλεκτρονικούς

υπολογιστές με λυχνίες και με την τεχνολογία του 1959

για τις ανάγκες υπολογισμού των παραμέτρων στην

ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων

Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες

υπολογιστικές δυνατότητες να εργάζεται με τη Item

Response Theory και να διαδίδει το λογισμικό Winsteps

για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία

μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους

πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα

Εικόνα 2 Ο Δανός Μαθηματικός Georg

Rasch (αριστερά) με τον φυσικό

Benjamin Wright πρωτοπόρο στη

χρήση των υπολογιστών για

ψυχομετρικές αναλύσεις

7

παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις

παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η

οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα

αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά

Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση

τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο

πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο

καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου

Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών

(Κασσωτακης 2013)

Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα

μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή

συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων

ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε

καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει

κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος

Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα

του υποψηφίου ndash δυσκολία του θέματος

Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα

μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να

απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05

Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και

ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του

μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής

απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό

μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και

laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις

υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και

(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος

απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας

υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα

40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60

τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo

του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p

ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)

Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό

διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της

πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με

πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05

11 05 05

To odd λοιπόν είναι

1

p

p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 2: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

2

Κάθε ερώτημα σε ένα τεστ

μπορεί σύμφωνα με την Κλασική

Θεωρία να θεωρηθεί εύκολο ή

δύσκολο ανάλογα με το πόσοι

συμμετέχοντες το απάντησαν

σωστά Με τον τρόπο αυτόν τα

ερωτήματα διαφέρουν αρχικά ως

προς τη χρησιμότητά τους Όπως

γίνεται εύκολα αντιληπτό αυτά

που απαντιούνται απrsquo όλους και

αυτά που δεν απαντώνται από

κανέναν δεν είναι πολύ χρήσιμα

για τους ερευνητές και θα

μπορούσαν να παραλειφτούν

από το τεστ Στην Κλασική

Θεωρία επίσης κάθε ερώτημα

χαρακτηρίζεται από τη

δυνατότητα διάκρισης που έχει

ανάλογα με το πόσο καλά

διαφοροποιεί τους ικανούς και

τους λιγότερο ικανούς μαθητές Τη δυνατότητα διάκρισης ενός ερωτήματος την υπολογίζουμε

στην Κλασική Θεωρία μέσω της διαφοράς στην παρατηρούμενη βαθμολογία που έχει τριάντα

περίπου τοις εκατό των υψηλότερων βαθμολογιών από το τριάντα τοις εκατό των χαμηλότερων

βαθμολογιών Αυτή η δυνατότητα διάκρισης συνδέεται με τον συντελεστή συσχέτισης κάθε

ερωτήματος με όλα τα άλλα ερωτήματα του τεστ Όσο πιο πολύ σχετίζεται ένα θέμα με όλα τα

άλλα θέματα τόσο μεγαλύτερη αξιοπιστία θεωρείται ότι διαθέτει ένα τεστ Μέσω της Κλασικής

Θεωρίας λοιπόν οι ερευνητές μπορούν να υπολογίσουν το πραγματικό σκορ καθώς και τις

ψυχομετρικές ιδιότητες κάθε μεμονωμένου ερωτήματος ενός τεστ

Η Κλασική Θεωρία όμως έχει ορισμένα προβλήματα Κατrsquo αρχάς προϋποθέτει ότι όλες οι

ερωτήσεις σε ένα τεστ μετρούν το πραγματικό σκορ με τον ίδιο ακριβώς τρόπο Για παράδειγμα

αν έχουμε ένα τεστ ή ένα ερωτηματολόγιο με 10 ερωτήσεις τύπου Likert ndashας υποθέσουμε 1=

laquoλίγοraquo 2= laquoαρκετάraquo 3= laquoπολύraquo και 4= laquoπάρα πολύraquo- υπάρχουν πάνω από ένα εκατομμύριο και

σαράντα οκτώ χιλιάδες πιθανοί συνδυασμοί απαντήσεων Μέσα σε αυτούς τους συνδυασμούς

υπάρχουν πάρα πολλοί συνδυασμοί με τους οποίους μπορεί να πάρει κανείς ένα σκορ ας πούμε

ίσο με 20 Η κλασική θεωρία υποστηρίζει ότι όλοι οι συνδυασμοί που δίνουν σκορ 20 έχουν την

ίδια ουσιαστική βαρύτητα στη μέτρηση της θεωρητικής κατασκευής Αυτό όμως δεν είναι

αλήθεια διότι κάθε ερώτημα συνδέεται με διαφορετικό τρόπο με τη θεωρητική κατασκευή που

θέλουμε να μετρήσουμε Άλλο είναι για παράδειγμα να απαντήσει κάποιος laquoπολύraquo στην

ερώτηση laquoκατά πόσο συμφωνείτε με την πρόσφατη θέσπιση του πολιτικού γάμουraquo και άλλο

είναι να απαντήσει κανείς laquoπολύraquo στην ερώτηση laquoπόσο πιθανό είναι να παντρευτείτε εσείς

προσωπικά με πολιτικό γάμοraquo Αν και θεωρητικά υπάρχει δυνατότητα και στατιστικοί τρόποι

ώστε τα ερωτήματα ενός τεστ να υπολογίζονται με διαφορετικούς συντελεστές βαρύτητας το

καθέναν (πχ μέσω Ανάλυσης Παραγόντων ή μέσω του συντελεστή συνάφειας ενός

ερωτήματος με τα υπόλοιπα ερωτήματα κλπ) η διαφοροποιημένη βαρύτητα δεν επηρεάζει

δομικά το τεστ Μπορεί για παράδειγμα μέσω διαφορετικών συντελεστών βαρύτητας να

πάρουμε διαφορετικά τελικά σκορ για δύο εξεταζόμενους που χωρίς τους συντελεστές θα είχαν

Εικόνα 1 Από το 1925 υπήρχε επίγνωση ότι τα ερωτήματα ενός τεστ

δεν έχουν τον ίδιο βαθμό δυσκολίας Ποσοστά ορθών

ανταποκρίσεων στις δοκιμασίες του τεστ των Binet-Simon σε παιδιά

διαφορετικών ηλικιών (πηγή Thurstone 1925 444) Οι αριθμοί πάνω

στις γραμμές αναφέρονται στον αριθμό των δοκιμασιών

3

δομήσει το ίδιο σκορ διαφορετικά αλλά η εσωτερική εγκυρότητα και αξιοπιστία των αρχικών

ερωτημάτων δεν θα άλλαζε

Ένα άλλο σοβαρό ζήτημα σε σχέση με την κλασική θεωρία είναι ότι οι κλίμακες μέτρησης της

θεωρητικής κατασκευής πρέπει να είναι τουλάχιστον ίσων διαστημάτων και όχι τακτικών τιμών

ή πολύ περισσότερο διχοτομικές (βλ Linacre 2005) Κλίμακες ίσων διαστημάτων είναι αυτές στις

οποίες η κλίμακα μέτρησης έχει ίσα διαστήματα από το ένα σημείο στο άλλο Κλίμακα ίσων

διαστημάτων είναι για παράδειγμα μια κλίμακα που θα μετρούσε την ηλικία ενός μαθητή σε

μήνες ή μια κλίμακα που θα μετρούσε τον αριθμό των λέξεων ενός κειμένου Κλίμακες τακτικών

τιμών ή άνισων διαστημάτων από την άλλη μεριά είναι κλίμακες στις οποίες τα διαστήματα από

μία τιμή στην άλλη δεν είναι ίσα Τέτοιες κλίμακες έχουμε για παράδειγμα κατά την καταγραφή

θετικής ή αρνητικής άποψης σε μια έρευνα διερεύνησης της κοινής γνώμης στις οποίες οι

πιθανές απαντήσεις είναι του τύπου laquoελάχιστα ευχαριστημένοςraquo laquoαρκετά ευχαριστημένοςraquo

laquoπολύ ευχαριστημένοςraquo και laquoπάρα πολύ ευχαριστημένοςraquo Η απόσταση μεταξύ του laquoελάχιστα

ευχαριστημένοςraquo και του laquoαρκετά ευχαριστημένοςraquo δεν είναι ίση με την απόσταση μεταξύ του

laquoπολύ ευχαριστημένοςraquo και του laquoπάρα πολύ ευχαριστημένοςraquo Διχοτομική κλίμακα είναι αυτή

στην οποία οι πιθανές απαντήσεις είναι δύο και σε αντίθετες κατευθύνσεις μεταξύ τους το laquoναιraquo

και το laquoόχιraquo με βάση το αν πέτυχε κάποιος σε ένα τεστ το laquoσωστόraquo και το laquoλάθοςraquo στη γραφή

μιας λέξης το laquoευχαριστημένοςraquo και το laquoδυσαρεστημένοςraquo σε ένα ερωτηματολόγιο κλπ

Η ανάλυση δεδομένων τακτικών τιμών επηρεάζεται από το εύρος των διαθέσιμων επιλογών

Πράγματι τα αποτελέσματα της ανάλυσης είναι πολύ διαφορετικά αν η κλίμακα που

χρησιμοποιούμε έχει λίγες ή περισσότερες πιθανές κατηγορίες Άλλη συσχέτιση έχουν για

παράδειγμα κλίμακες με τέσσερα άνισα διαστήματα και άλλη συσχέτιση έχουν κλίμακες με

οκτώ άνισα διαστήματα Άλλη συμπεριφορά έχουν οι κλίμακες στις οποίες υπάρχει κάποια

μεσαία ή laquoουδέτερηraquo κατηγορία (πχ laquoούτε ευχαριστημένος ούτε δυσαρεστημένοςraquo) και άλλη

συμπεριφορά έχουν οι κλίμακες οι οποίες κατευθύνουν αναγκαστικά τον ανταποκρινόμενο είτε

προς την πλευρά μιας γενικότερης ικανοποίησης είτε προς την πλευρά μιας γενικότερης μη

ικανοποίησης χωρίς τη δυνατότητα κάποιας ουδέτερης ή μεσαίας επιλογής Οι κλίμακες

διαφέρουν επίσης ως προς την ύπαρξη κάποιας laquoμηδενικήraquo κατηγορίας όπως θα ήταν το

laquoκαθόλου ευχαριστημένοςraquo το οποίο διαφέρει σε τεράστιο βαθμό από το laquoλίγο ευχαριστημένοςraquo

και από το υπόλοιπο μέρος της κλίμακας

ΛΑΝΘΑΝΟΥΣΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ

Στο πλαίσιο της κλασικής θεωρίας των μετρήσεων εντάσσονται και κάποιες τεχνικές ανάλυσης

με τις οποίες οι ερευνητές μετρούν λανθάνουσες μεταβλητές δηλαδή μεταβλητές που δεν

παρατηρούνται ευθέως Τέτοιες μεταβλητές έχουν να κάνουν για παράδειγμα με τις στάσεις

και τις προσδοκίες των ανθρώπων τις γνώσεις τους τις συμπεριφορές τους τις δεξιότητές τους

Διάφοροι μελετητές έχουν εκφράσει διαφορετικές απόψεις για το πώς τελικά θα έπρεπε να

εννοούνται οι λανθάνουσες μεταβλητές στην ψυχολογική αλλά και την παιδαγωγική και την

κοινωνική έρευνα Ο Bollen (2002) έχει συγκεντρώσει κριτικά πολλές κατηγορίες ορισμών πριν

δώσει τελικά τον δικό του σύμφωνα με τον οποίο laquoμια τυχαία ή μη τυχαία μεταβλητή

ονομάζεται ldquoλανθάνουσαrdquo όταν κάποιες από τις παρατηρήσεις της δεν πραγματώνονται σε ένα

ορισμένο δείγμαraquo (Bollen ό π 612)

Βασική ιδέα στην κλασική θεωρία της μέτρησης είναι ότι οι παρατηρήσεις συνδέονται με ένα

σύνολο λανθανουσών μεταβλητών οι οποίες έχουν τη μορφή κοινών παραγόντων Επιδίωξη

4

της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς

παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους

όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό

και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα

δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των

παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες

Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι

συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα

τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα

ορίσουν τον αριθμό και τη φύση των f

1 1 11 1 12 2 1 1

2 2 21 12 22 2 2 2

1 1 2 2

q q

q

p p p p pq p

x f f f u

x f f u

x f f u

Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p

παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη

ισότητα γράφεται i i ix =μ + Λf + u με 12i n

Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων

είναι μηδέν δηλαδή ( )E x όταν 1 2

0q

f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι

ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος

όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι

διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν

λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο

μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της

αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η

κατανομή θα είχε περισσότερες διαστάσεις

Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης

ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με

όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι

cov( )x ΤΣ = ΛΛ +Ψ

Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί

παράγοντες f

Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από

κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων

και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από

κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h

5

Η συνολική διακύμανση στα x είναι 2

1

k

ij ij

j

u

Η ποσότητα 2 2

1

k

i ij

j

h

ονομάζεται

ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς

παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη

διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως

δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική

έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό

των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση

παραγόντων τα f είναι πάντα λιγότερα από τα x

Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί

ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών

να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω

κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας

υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη

βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων

Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους

υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί

δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014

Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι

1

1

1logL log ( ) ( )

2 2

n

i

n

i iΣ x - μ Σ x - μ

Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση

παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων

συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της

συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν

μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές

να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι

laquoκύριεςraquo

Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή

που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι

i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά

όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση

παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο

αντίστοιχος πίνακας cov( )i

e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και

της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη

δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις

συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων

συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι

διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της

ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως

6

δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή

συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές

για αντίστοιχες αναλύσεις με τακτικές τιμές

Η νέα θεωρία των μετρήσεων

Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH

Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία

υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις

προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η

Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές

της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick

Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο

Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας

είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από

αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα

οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το

εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα

που θα παρουσιάσουμε πιο κάτω

Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο

οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω

μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια

τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko

Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των

τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock

και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο

Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την

ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό

μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer

επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου

Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων

σημαντική υπήρξε και η συμβολή του Αμερικανού

φυσικού Benjamin Wright ο οποίος ήταν από τους

πρώτους που χρησιμοποίησαν ηλεκτρονικούς

υπολογιστές με λυχνίες και με την τεχνολογία του 1959

για τις ανάγκες υπολογισμού των παραμέτρων στην

ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων

Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες

υπολογιστικές δυνατότητες να εργάζεται με τη Item

Response Theory και να διαδίδει το λογισμικό Winsteps

για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία

μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους

πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα

Εικόνα 2 Ο Δανός Μαθηματικός Georg

Rasch (αριστερά) με τον φυσικό

Benjamin Wright πρωτοπόρο στη

χρήση των υπολογιστών για

ψυχομετρικές αναλύσεις

7

παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις

παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η

οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα

αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά

Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση

τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο

πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο

καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου

Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών

(Κασσωτακης 2013)

Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα

μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή

συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων

ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε

καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει

κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος

Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα

του υποψηφίου ndash δυσκολία του θέματος

Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα

μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να

απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05

Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και

ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του

μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής

απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό

μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και

laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις

υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και

(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος

απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας

υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα

40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60

τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo

του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p

ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)

Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό

διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της

πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με

πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05

11 05 05

To odd λοιπόν είναι

1

p

p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 3: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

3

δομήσει το ίδιο σκορ διαφορετικά αλλά η εσωτερική εγκυρότητα και αξιοπιστία των αρχικών

ερωτημάτων δεν θα άλλαζε

Ένα άλλο σοβαρό ζήτημα σε σχέση με την κλασική θεωρία είναι ότι οι κλίμακες μέτρησης της

θεωρητικής κατασκευής πρέπει να είναι τουλάχιστον ίσων διαστημάτων και όχι τακτικών τιμών

ή πολύ περισσότερο διχοτομικές (βλ Linacre 2005) Κλίμακες ίσων διαστημάτων είναι αυτές στις

οποίες η κλίμακα μέτρησης έχει ίσα διαστήματα από το ένα σημείο στο άλλο Κλίμακα ίσων

διαστημάτων είναι για παράδειγμα μια κλίμακα που θα μετρούσε την ηλικία ενός μαθητή σε

μήνες ή μια κλίμακα που θα μετρούσε τον αριθμό των λέξεων ενός κειμένου Κλίμακες τακτικών

τιμών ή άνισων διαστημάτων από την άλλη μεριά είναι κλίμακες στις οποίες τα διαστήματα από

μία τιμή στην άλλη δεν είναι ίσα Τέτοιες κλίμακες έχουμε για παράδειγμα κατά την καταγραφή

θετικής ή αρνητικής άποψης σε μια έρευνα διερεύνησης της κοινής γνώμης στις οποίες οι

πιθανές απαντήσεις είναι του τύπου laquoελάχιστα ευχαριστημένοςraquo laquoαρκετά ευχαριστημένοςraquo

laquoπολύ ευχαριστημένοςraquo και laquoπάρα πολύ ευχαριστημένοςraquo Η απόσταση μεταξύ του laquoελάχιστα

ευχαριστημένοςraquo και του laquoαρκετά ευχαριστημένοςraquo δεν είναι ίση με την απόσταση μεταξύ του

laquoπολύ ευχαριστημένοςraquo και του laquoπάρα πολύ ευχαριστημένοςraquo Διχοτομική κλίμακα είναι αυτή

στην οποία οι πιθανές απαντήσεις είναι δύο και σε αντίθετες κατευθύνσεις μεταξύ τους το laquoναιraquo

και το laquoόχιraquo με βάση το αν πέτυχε κάποιος σε ένα τεστ το laquoσωστόraquo και το laquoλάθοςraquo στη γραφή

μιας λέξης το laquoευχαριστημένοςraquo και το laquoδυσαρεστημένοςraquo σε ένα ερωτηματολόγιο κλπ

Η ανάλυση δεδομένων τακτικών τιμών επηρεάζεται από το εύρος των διαθέσιμων επιλογών

Πράγματι τα αποτελέσματα της ανάλυσης είναι πολύ διαφορετικά αν η κλίμακα που

χρησιμοποιούμε έχει λίγες ή περισσότερες πιθανές κατηγορίες Άλλη συσχέτιση έχουν για

παράδειγμα κλίμακες με τέσσερα άνισα διαστήματα και άλλη συσχέτιση έχουν κλίμακες με

οκτώ άνισα διαστήματα Άλλη συμπεριφορά έχουν οι κλίμακες στις οποίες υπάρχει κάποια

μεσαία ή laquoουδέτερηraquo κατηγορία (πχ laquoούτε ευχαριστημένος ούτε δυσαρεστημένοςraquo) και άλλη

συμπεριφορά έχουν οι κλίμακες οι οποίες κατευθύνουν αναγκαστικά τον ανταποκρινόμενο είτε

προς την πλευρά μιας γενικότερης ικανοποίησης είτε προς την πλευρά μιας γενικότερης μη

ικανοποίησης χωρίς τη δυνατότητα κάποιας ουδέτερης ή μεσαίας επιλογής Οι κλίμακες

διαφέρουν επίσης ως προς την ύπαρξη κάποιας laquoμηδενικήraquo κατηγορίας όπως θα ήταν το

laquoκαθόλου ευχαριστημένοςraquo το οποίο διαφέρει σε τεράστιο βαθμό από το laquoλίγο ευχαριστημένοςraquo

και από το υπόλοιπο μέρος της κλίμακας

ΛΑΝΘΑΝΟΥΣΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ

Στο πλαίσιο της κλασικής θεωρίας των μετρήσεων εντάσσονται και κάποιες τεχνικές ανάλυσης

με τις οποίες οι ερευνητές μετρούν λανθάνουσες μεταβλητές δηλαδή μεταβλητές που δεν

παρατηρούνται ευθέως Τέτοιες μεταβλητές έχουν να κάνουν για παράδειγμα με τις στάσεις

και τις προσδοκίες των ανθρώπων τις γνώσεις τους τις συμπεριφορές τους τις δεξιότητές τους

Διάφοροι μελετητές έχουν εκφράσει διαφορετικές απόψεις για το πώς τελικά θα έπρεπε να

εννοούνται οι λανθάνουσες μεταβλητές στην ψυχολογική αλλά και την παιδαγωγική και την

κοινωνική έρευνα Ο Bollen (2002) έχει συγκεντρώσει κριτικά πολλές κατηγορίες ορισμών πριν

δώσει τελικά τον δικό του σύμφωνα με τον οποίο laquoμια τυχαία ή μη τυχαία μεταβλητή

ονομάζεται ldquoλανθάνουσαrdquo όταν κάποιες από τις παρατηρήσεις της δεν πραγματώνονται σε ένα

ορισμένο δείγμαraquo (Bollen ό π 612)

Βασική ιδέα στην κλασική θεωρία της μέτρησης είναι ότι οι παρατηρήσεις συνδέονται με ένα

σύνολο λανθανουσών μεταβλητών οι οποίες έχουν τη μορφή κοινών παραγόντων Επιδίωξη

4

της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς

παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους

όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό

και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα

δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των

παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες

Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι

συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα

τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα

ορίσουν τον αριθμό και τη φύση των f

1 1 11 1 12 2 1 1

2 2 21 12 22 2 2 2

1 1 2 2

q q

q

p p p p pq p

x f f f u

x f f u

x f f u

Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p

παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη

ισότητα γράφεται i i ix =μ + Λf + u με 12i n

Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων

είναι μηδέν δηλαδή ( )E x όταν 1 2

0q

f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι

ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος

όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι

διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν

λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο

μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της

αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η

κατανομή θα είχε περισσότερες διαστάσεις

Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης

ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με

όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι

cov( )x ΤΣ = ΛΛ +Ψ

Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί

παράγοντες f

Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από

κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων

και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από

κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h

5

Η συνολική διακύμανση στα x είναι 2

1

k

ij ij

j

u

Η ποσότητα 2 2

1

k

i ij

j

h

ονομάζεται

ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς

παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη

διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως

δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική

έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό

των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση

παραγόντων τα f είναι πάντα λιγότερα από τα x

Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί

ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών

να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω

κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας

υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη

βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων

Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους

υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί

δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014

Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι

1

1

1logL log ( ) ( )

2 2

n

i

n

i iΣ x - μ Σ x - μ

Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση

παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων

συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της

συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν

μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές

να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι

laquoκύριεςraquo

Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή

που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι

i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά

όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση

παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο

αντίστοιχος πίνακας cov( )i

e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και

της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη

δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις

συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων

συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι

διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της

ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως

6

δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή

συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές

για αντίστοιχες αναλύσεις με τακτικές τιμές

Η νέα θεωρία των μετρήσεων

Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH

Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία

υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις

προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η

Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές

της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick

Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο

Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας

είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από

αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα

οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το

εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα

που θα παρουσιάσουμε πιο κάτω

Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο

οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω

μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια

τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko

Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των

τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock

και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο

Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την

ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό

μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer

επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου

Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων

σημαντική υπήρξε και η συμβολή του Αμερικανού

φυσικού Benjamin Wright ο οποίος ήταν από τους

πρώτους που χρησιμοποίησαν ηλεκτρονικούς

υπολογιστές με λυχνίες και με την τεχνολογία του 1959

για τις ανάγκες υπολογισμού των παραμέτρων στην

ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων

Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες

υπολογιστικές δυνατότητες να εργάζεται με τη Item

Response Theory και να διαδίδει το λογισμικό Winsteps

για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία

μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους

πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα

Εικόνα 2 Ο Δανός Μαθηματικός Georg

Rasch (αριστερά) με τον φυσικό

Benjamin Wright πρωτοπόρο στη

χρήση των υπολογιστών για

ψυχομετρικές αναλύσεις

7

παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις

παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η

οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα

αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά

Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση

τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο

πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο

καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου

Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών

(Κασσωτακης 2013)

Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα

μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή

συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων

ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε

καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει

κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος

Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα

του υποψηφίου ndash δυσκολία του θέματος

Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα

μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να

απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05

Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και

ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του

μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής

απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό

μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και

laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις

υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και

(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος

απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας

υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα

40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60

τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo

του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p

ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)

Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό

διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της

πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με

πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05

11 05 05

To odd λοιπόν είναι

1

p

p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 4: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

4

της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς

παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους

όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό

και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα

δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των

παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες

Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι

συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα

τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα

ορίσουν τον αριθμό και τη φύση των f

1 1 11 1 12 2 1 1

2 2 21 12 22 2 2 2

1 1 2 2

q q

q

p p p p pq p

x f f f u

x f f u

x f f u

Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p

παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη

ισότητα γράφεται i i ix =μ + Λf + u με 12i n

Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων

είναι μηδέν δηλαδή ( )E x όταν 1 2

0q

f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι

ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος

όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι

διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν

λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο

μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της

αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η

κατανομή θα είχε περισσότερες διαστάσεις

Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης

ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με

όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι

cov( )x ΤΣ = ΛΛ +Ψ

Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί

παράγοντες f

Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από

κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων

και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από

κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h

5

Η συνολική διακύμανση στα x είναι 2

1

k

ij ij

j

u

Η ποσότητα 2 2

1

k

i ij

j

h

ονομάζεται

ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς

παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη

διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως

δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική

έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό

των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση

παραγόντων τα f είναι πάντα λιγότερα από τα x

Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί

ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών

να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω

κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας

υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη

βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων

Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους

υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί

δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014

Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι

1

1

1logL log ( ) ( )

2 2

n

i

n

i iΣ x - μ Σ x - μ

Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση

παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων

συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της

συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν

μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές

να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι

laquoκύριεςraquo

Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή

που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι

i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά

όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση

παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο

αντίστοιχος πίνακας cov( )i

e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και

της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη

δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις

συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων

συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι

διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της

ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως

6

δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή

συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές

για αντίστοιχες αναλύσεις με τακτικές τιμές

Η νέα θεωρία των μετρήσεων

Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH

Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία

υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις

προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η

Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές

της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick

Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο

Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας

είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από

αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα

οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το

εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα

που θα παρουσιάσουμε πιο κάτω

Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο

οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω

μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια

τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko

Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των

τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock

και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο

Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την

ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό

μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer

επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου

Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων

σημαντική υπήρξε και η συμβολή του Αμερικανού

φυσικού Benjamin Wright ο οποίος ήταν από τους

πρώτους που χρησιμοποίησαν ηλεκτρονικούς

υπολογιστές με λυχνίες και με την τεχνολογία του 1959

για τις ανάγκες υπολογισμού των παραμέτρων στην

ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων

Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες

υπολογιστικές δυνατότητες να εργάζεται με τη Item

Response Theory και να διαδίδει το λογισμικό Winsteps

για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία

μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους

πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα

Εικόνα 2 Ο Δανός Μαθηματικός Georg

Rasch (αριστερά) με τον φυσικό

Benjamin Wright πρωτοπόρο στη

χρήση των υπολογιστών για

ψυχομετρικές αναλύσεις

7

παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις

παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η

οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα

αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά

Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση

τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο

πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο

καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου

Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών

(Κασσωτακης 2013)

Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα

μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή

συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων

ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε

καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει

κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος

Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα

του υποψηφίου ndash δυσκολία του θέματος

Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα

μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να

απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05

Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και

ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του

μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής

απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό

μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και

laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις

υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και

(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος

απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας

υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα

40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60

τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo

του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p

ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)

Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό

διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της

πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με

πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05

11 05 05

To odd λοιπόν είναι

1

p

p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 5: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

5

Η συνολική διακύμανση στα x είναι 2

1

k

ij ij

j

u

Η ποσότητα 2 2

1

k

i ij

j

h

ονομάζεται

ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς

παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη

διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως

δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική

έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό

των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση

παραγόντων τα f είναι πάντα λιγότερα από τα x

Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί

ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών

να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω

κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας

υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη

βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων

Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους

υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί

δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014

Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι

1

1

1logL log ( ) ( )

2 2

n

i

n

i iΣ x - μ Σ x - μ

Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση

παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων

συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της

συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν

μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές

να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι

laquoκύριεςraquo

Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή

που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι

i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά

όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση

παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο

αντίστοιχος πίνακας cov( )i

e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και

της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη

δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις

συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων

συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι

διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της

ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως

6

δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή

συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές

για αντίστοιχες αναλύσεις με τακτικές τιμές

Η νέα θεωρία των μετρήσεων

Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH

Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία

υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις

προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η

Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές

της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick

Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο

Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας

είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από

αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα

οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το

εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα

που θα παρουσιάσουμε πιο κάτω

Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο

οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω

μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια

τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko

Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των

τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock

και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο

Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την

ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό

μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer

επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου

Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων

σημαντική υπήρξε και η συμβολή του Αμερικανού

φυσικού Benjamin Wright ο οποίος ήταν από τους

πρώτους που χρησιμοποίησαν ηλεκτρονικούς

υπολογιστές με λυχνίες και με την τεχνολογία του 1959

για τις ανάγκες υπολογισμού των παραμέτρων στην

ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων

Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες

υπολογιστικές δυνατότητες να εργάζεται με τη Item

Response Theory και να διαδίδει το λογισμικό Winsteps

για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία

μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους

πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα

Εικόνα 2 Ο Δανός Μαθηματικός Georg

Rasch (αριστερά) με τον φυσικό

Benjamin Wright πρωτοπόρο στη

χρήση των υπολογιστών για

ψυχομετρικές αναλύσεις

7

παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις

παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η

οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα

αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά

Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση

τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο

πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο

καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου

Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών

(Κασσωτακης 2013)

Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα

μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή

συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων

ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε

καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει

κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος

Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα

του υποψηφίου ndash δυσκολία του θέματος

Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα

μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να

απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05

Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και

ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του

μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής

απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό

μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και

laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις

υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και

(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος

απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας

υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα

40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60

τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo

του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p

ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)

Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό

διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της

πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με

πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05

11 05 05

To odd λοιπόν είναι

1

p

p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 6: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

6

δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή

συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές

για αντίστοιχες αναλύσεις με τακτικές τιμές

Η νέα θεωρία των μετρήσεων

Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH

Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία

υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις

προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η

Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές

της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick

Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο

Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας

είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από

αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα

οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το

εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα

που θα παρουσιάσουμε πιο κάτω

Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο

οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω

μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια

τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko

Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των

τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock

και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο

Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την

ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό

μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer

επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου

Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων

σημαντική υπήρξε και η συμβολή του Αμερικανού

φυσικού Benjamin Wright ο οποίος ήταν από τους

πρώτους που χρησιμοποίησαν ηλεκτρονικούς

υπολογιστές με λυχνίες και με την τεχνολογία του 1959

για τις ανάγκες υπολογισμού των παραμέτρων στην

ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων

Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες

υπολογιστικές δυνατότητες να εργάζεται με τη Item

Response Theory και να διαδίδει το λογισμικό Winsteps

για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία

μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους

πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα

Εικόνα 2 Ο Δανός Μαθηματικός Georg

Rasch (αριστερά) με τον φυσικό

Benjamin Wright πρωτοπόρο στη

χρήση των υπολογιστών για

ψυχομετρικές αναλύσεις

7

παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις

παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η

οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα

αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά

Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση

τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο

πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο

καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου

Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών

(Κασσωτακης 2013)

Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα

μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή

συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων

ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε

καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει

κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος

Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα

του υποψηφίου ndash δυσκολία του θέματος

Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα

μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να

απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05

Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και

ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του

μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής

απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό

μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και

laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις

υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και

(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος

απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας

υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα

40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60

τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo

του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p

ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)

Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό

διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της

πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με

πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05

11 05 05

To odd λοιπόν είναι

1

p

p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 7: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

7

παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις

παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η

οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα

αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά

Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση

τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο

πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο

καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου

Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών

(Κασσωτακης 2013)

Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα

μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή

συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων

ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε

καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει

κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος

Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα

του υποψηφίου ndash δυσκολία του θέματος

Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα

μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να

απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05

Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και

ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του

μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής

απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό

μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και

laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις

υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και

(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος

απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας

υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα

40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60

τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo

του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p

ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)

Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό

διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της

πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με

πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05

11 05 05

To odd λοιπόν είναι

1

p

p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 8: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

8

παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου

προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη

μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη

ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν

πιθανότητα ορθής απάντησης

πιθανότητα λανθασμένης απάντησης 040

066060

Για να μετατρέψουμε το κλάσμα πάλι σε

πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066

0401 1 066

oddp

odd

Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον

Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην

πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds

δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες

συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε

δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και

μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για

πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί

λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να

δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε

προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e

Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες

Πιθανότητα p 001 010 020 030 040 050 060 070 080 090

Odds 1

p

p 1

99

10

90

20

80

30

70

40

60

50

50

60

40

70

30

80

20

90

10

Τιμές των

odds

001 011 025 043 066 1 150 233 4 9

logit ln

1

p

p

-460 -220 -138 -084 -041 0 040 084 138 218

Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1

py

p

και

1y pe

p

Στο δικό μας

παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040

Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον

κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές

μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 9: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

9

Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά

τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία

δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008

Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 10: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

10

Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 11: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

11

ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία

Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 12: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

12

Οι συγγραφείς

συνοψίζουν στη σελίδα

292 της εργασίας τους

ότι το ελληνικό

ορθογραφικό σύστημα

χαρακτηρίζεται από

πολυσήμαντη

αντιστοιχία

ταυτόχρονη

αντιστοιχία αλλά και

αναντιστοιχία μεταξύ

φθόγγων και

γραφημάτων Έτσι

καταλήγουν στο

συμπέρασμα ότι laquoη

ακριβής γραφή των

λέξεων εξαρτάται

εκτός από τη

φωνημική επιγνωση

του αναγνώστη και

από το

οπτικοορθογραφικό

του λεξικό και τη

μορφολογική του

επίγνωσηraquo

Οι συγγραφείς

παρουσιάζουν

στοιχεία για παρόμοιες

διδακτικές

παρεμβάσεις στην

Ελλάδα και στην δεξιά

στήλη της επόμενης

σελίδας 293

αναφέρονται στη δική

τους εργασία ως μέρος

μιας ευρύτερης

διαχρονικής μελέτης

που περιελάμβανε

πέντε διαδοχικές

μετρήσεις

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 13: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

13

Και η

βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας

επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός

ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση

θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι

laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός

τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για

το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η

αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια

αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα

ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 14: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

14

θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν

ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι

αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια

αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ

έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν

βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό

και στο άλλο

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 15: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

15

Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία

ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον

πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα

χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι

συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους

συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη

και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που

είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα

1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 16: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

16

τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της

κατανομής της ηλικίας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ

Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα

laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό

τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες

περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές

ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να

πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα

Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι

ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την

ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε

μεγάλη θεωρητική και στατιστική σημασία

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 17: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

17

Στη

σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της

ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν

επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό

εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και

αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)

Ο ΔΕΙΚΤΗΣ ΑΛΦΑ

Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και

στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε

και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν

τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 18: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

18

αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από

μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα

των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη

συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των

ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και

πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των

ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο

αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το

κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των

ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και

ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι

μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα

ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ

άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί

και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή

υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε

μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια

λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από

τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι

συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες

συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα

αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 19: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

19

αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά

τη γνώμη μας)

Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN

Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman

για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 20: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

20

ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται

εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν

κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν

έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος

ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του

περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες

του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον

Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r

Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη

συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των

αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο

καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει

τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας

και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των

μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα

γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια

έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ

του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των

τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo

γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή

τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των

τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο

αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το

κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι

n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση

-6n(n2-1) και αποτέμνουσα ίση με 1

Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές

αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo

σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα

εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό

εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές

διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και

από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η

διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές

τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας

δώσουν μια εικόνα των κατανομών

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 21: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

21

ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t

Οι στατιστικά laquoσημαντικές διαφορές μεταξύ

των δύο φύλωνraquo όπως γράφουν οι συγγραφείς

στη σελίδα 296 εξακριβώθηκαν με το κριτήριο

F Το εν λόγω κριτήριο λέγεται έτσι επειδή

ακολουθεί την κατανομή F η οποία με τη σειρά

της ονομάστηκε έτσι από το αρχικό του

επιθέτου του Sir Ronald Fisher που το

πρωτοκατασκεύασε για τον έλεγχο κυρίως της

ισότητας των διακυμάνσεων Εδώ όμως το F

τεστ χρησιμοποιείται από τους συγγραφείς ως

εναλλακτικό του t τεστ για να διερευνηθούν οι

διαφορές ανάμεσα στα αγόρια και στα

κορίτσια Το t τεστ πήρε το όνομά του από τον

laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη

σχετική εργασία του ο χημικός και στατιστικός

William Sealy Gosset στο περιοδικό Biometrika

που διήυθυνε ο Karl Pearson Ο Gosset

εργαζόνταν για τη εταιρεία μπύρας Guinness

στο Δουβλίνο Η εν λόγω εταιρεία

προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του

Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο

Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo

Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων

όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά

των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής

διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο

μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η

καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο

μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής

υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο

όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των

γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική

διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον

αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του

F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το

γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και

είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας

ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να

απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς

ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης

οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι

ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο

Σχήμα 2 Διδιάστατη κανονική

κατανομή με δύο κατηγορίες ανά

μεταβλητή

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 22: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

22

βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό

σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους

βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους

ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον

υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι

δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην

έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές

τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι

βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση

που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε

2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η

διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι

η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν

το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης

Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική

ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ

Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην

laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής

εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων

Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή

ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα

παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να

συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ

διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή

laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των

μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν

ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική

ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων

Η ύπαρξη μιας και μόνης διάστασης

είναι πολύ σημαντικό ζήτημα στην

κατασκευή ενός τεστ Υποτίθεται ότι

η κλίμακα μετράει μία και μόνη

λανθάνουσα μεταβλητή Ένας

τρόπος να το δει κανείς αυτό είναι να

μελετήσει τη δομή της

συνδιακύμανσης ανάμεσα στα

ερωτήματα του τεστ Οι συγγραφείς

αναφέρουν στη σελίδα 297 ότι ένας

τρόπος για να ελεγχθεί αυτό θα ήταν

μέσω του λογισμικού EQS 61 και της

χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται

Σχήμα 3 Διδιάστατη κανονική κατανομή με

τέσσερις τεχνητές κατηγορίες ανά

μεταβλητή

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 23: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

23

στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο

τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και

παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση

για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε

παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων

ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα

των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και

laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις

του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε

ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις

να είναι γραμμένες ορθά (β) και οι

δύο λέξεις να είναι γραμμένες

λάθος (γ) σωστή η πρώτη λέξη και

λάθος η δεύτερη και (δ) σωστή η

δεύτερη λέξη και λάθος η πρώτη

Ο συντελεστής συνάφειας μεταξύ

της επιτυχίας ή αποτυχίας στην

ορθή γραφή δύο λέξεων σ λαμβάνει

υπόψη του το γεγονός ότι ο

διαχωρισμός laquoσωστό ndash λάθοςraquo είναι

στην ουσία η αποτύπωση ενός

παράγοντα που ακολουθεί την

κανονική κατανομή Αυτός ο

παράγοντας είναι φυσικά η

ορθογραφική ικανότητα Έτσι οι

δύο λέξεις ως ζευγάρι πλέον

ακολουθούν τη διδιάστατη

κανονική κατανομή η οποία

εμφανίζεται στον τριδιάστατο

χώρο στο Σχήμα 2 και στο Σχήμα 3

Γενικά οι laquoπολυχωρικοίraquo

συντελεστές λαμβάνουν υπόψη

τους την τεχνητή κατάτμηση

1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ

httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor

and Francis

Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων

και δύο κύριες συνιστώσες στα δεδομένα

Σχήμα 5 Scree test για την απόφαση του

πόσες κύριες συνιστώσες θα διατηρηθούν

στο μοντέλο

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 24: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

24

μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο

Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες

κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν

προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει

υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για

αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με

δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του

τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ

Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι

μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο

της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός

πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο

ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων

ερωτημάτων (Bouvier Perry amp Michael 1954)

SCREE ΤΕΣΤ

Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη

διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το

οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή

ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει

πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από

ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo

Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα

σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι

οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα

σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα

σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς

υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα

Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες

είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο

καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των

συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των

νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή

του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ

μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 25: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

25

μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη

συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο

άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η

διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n

διαστάσεις

παίρνουμε μια

ιδέα για τη

χρησιμότητα της

laquoΚύριων

Συνιστωσώνraquo ως

μεθόδου μείωσης

των διαστάσεων

σε έναν χώρο

διαστάσεων n

Το Scree τεστ

σύμφωνα με την

εμπειρική

πρακτική

προτείνει να

κρατάμε στην

ανάλυση μία

λιγότερη

συνιστώσα από

όσες

υπερβαίνουν το

laquoμανίκιraquo του

σχήματος το

σημείο δηλαδή

στο οποίο το

σχήμα

οριζοντιώνεται

Στο παράδειγμα

(Σχήμα 5) η

οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι

κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)

Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα

κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική

διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές

τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα

διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch

για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η

εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 26: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

26

λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του

κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του

ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική

διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το

ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η

επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το

ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο

μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και

η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται

ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)

Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της

επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 27: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

27

συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού

χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως

laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην

Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν

υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της

μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει

Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)

παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο

δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο

λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη

laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο

συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη

073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο

παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και

036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι

συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο

παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για

τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον

υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά

μηδέν

ΤΟ ΜΟΝΤΕΛΟ RASCH

Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους

και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του

μοντέλου Rasch

Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά

Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την

πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να

γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και

τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν

απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην

ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 28: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

28

αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις

ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς

τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα

Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για

αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο

λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την

ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash

μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που

κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά

χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 29: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

29

Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται

με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον

παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο

διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει

βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι

δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων

χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του

λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την

πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου

λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των

πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του

λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται

ως log1

p

p

και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 30: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

30

Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των

λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που

σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια

άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον

logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι

ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα

(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της

ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 31: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

31

ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες

διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον

μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην

επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]

1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την

ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )

( )1

n i

n i

D

D

e

e

[έτσι

γίνεται ο τύπος log1

p

p

αν λύσουμε ως προς την πιθανότητα p και λάβουμε

υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 32: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

32

Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με

μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι

μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα

των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά

Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω

μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας

εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές

αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον

μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 33: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

33

εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις

πιο δύσκολες λέξεις

Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από

πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από

τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου

Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα

με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 34: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

34

ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)

αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες

Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς

(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο

Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη

Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας

των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα

αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του

μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής

προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας

περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες

ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από

τους δύο προαναφερθέντες δείκτες

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 35: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

35

Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα

βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της

τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο

εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα

αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η

αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το

υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική

απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται

είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με

το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 36: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

36

Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit

είναι

2

1

( )1 Nij ij

i ij

U P

N w

όπου

ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο

ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το

μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)

Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων

διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή

2

1

1

( )N

ij ij ijN

N

iji

U P w

w

Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και

εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες

ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit

επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των

ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί

δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με

τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας

τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα

που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το

λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές

εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων

παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον

οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit

(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)

σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο

μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 37: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

37

Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε

ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις

φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της

στατιστικής τους σημαντικότητας

Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε

ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp

Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των

τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων

του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των

υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 38: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

38

τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT

MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν

laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων

λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές

μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο

Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο

προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit

σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση

έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή

είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι

σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των

δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)

DIFFERENTIAL ITEM FUNCTIONING

Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής

διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item

functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για

διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)

διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο

ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να

απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη

διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής

κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη

της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το

τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα

πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται

με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία

εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή

τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο

μεταβλητής

Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και

συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής

για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές

που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες

και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 39: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

39

background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη

μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999

Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια

γλωσσική δοκιμασία

H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο

προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test

δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου

1id είναι η

δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 40: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

40

i στην άλλη ομάδα 12is το τυπικό σφάλμα του

1id και

22is το τυπικό σφάλμα του

2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική

διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και

μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις

laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για

μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 41: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

41

ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ

Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς

στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα

συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται

σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων

πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να

πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 42: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

42

θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών

στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές

τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo

καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο

σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία

προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής

αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται

στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και

προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός

τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε

αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που

τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ

laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός

τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο

μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα

εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 43: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

43

ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ

προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν

το

Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι

συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας

(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi

κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου

μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να

μπορεί να εντοπίσει το άρθρο

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 44: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

44

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 45: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

45

ΠΑΡΑΡΤΗΜΑΤΑ

Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο

σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό

κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το

μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά

ανάλυση Rasch

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 46: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

46

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 47: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

47

Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων

Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών

σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο

Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο

δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν

και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με

την περίληψη στην αγγλική γλώσσα

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 48: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

48

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 49: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

49

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 50: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

50

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 51: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

51

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 52: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

52

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 53: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

53

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 54: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

54

ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH

Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι

αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως

αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση

για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται

στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της

ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και

Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν

τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά

να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε

έλλειψη προσαρμογής

Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-

ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε

προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί

της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την

γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει

να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα

των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους

περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον

περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή

θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια

λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις

μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η

ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά

που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή

του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της

συμμετέχουσας

Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα

χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo

Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των

ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith

(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών

όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch

έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)

Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν

εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων

Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων

συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane

amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011

Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη

γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 55: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

55

του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των

συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν

να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)

Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία

μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι

δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ

είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε

Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων

(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με

τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς

η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η

ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω

της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων

(Brentari amp Golia 2007) για τις οποίες μιλήσαμε

Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των

διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές

μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές

χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair

Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η

μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν

έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να

ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου

μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες

ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας

Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger

(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη

διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα

επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου

Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των

ίδιων των ερευνητών

Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη

της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα

(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο

μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν

υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)

Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο

μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού

πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω

από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια

ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 56: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

56

Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της

ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof

(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς

και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης

του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)

έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της

μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch

Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των

ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε

να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)

Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα

είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η

υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή

προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων

της ανάλυσης Rasch [δική μας μετάφραση]

Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε

laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός

συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον

υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo

Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο

καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και

τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την

μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από

τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους

χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp

Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα

παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της

μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των

διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει

ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen

2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)

και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο

εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του

Wiberg (2012) στο περιοδικό Educational Research and Evaluation

Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ

μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη

alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης

κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό

γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις

οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών

σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 57: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

57

βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον

λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του

τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον

υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο

δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp

Stone 1999)

Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους

συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις

που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι

συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1

Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για

παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν

σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου

δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να

αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη

ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε

πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες

όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός

κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον

δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα

διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή

αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων

(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν

τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright

amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια

πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι

πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον

δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών

επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο

δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι

συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre

2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των

ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους

αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των

θεμάτων μπορούμε να αναμένουμε στο δείγμα

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf

Page 58: Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο σκορ διαφορετικά, αλλά η εσωτερική εγκυρότητα και

58

Bιβλιογραφικές αναφορές

Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland

Press

Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of

Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239

de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford

Press

Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some

Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved

from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259

Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA  Theory Simulations and

Applications to Socioeconomic Indices Moscow Russia

Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at

the PISA scaling model underlying ranking of countries according to reading literacy

Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z

Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement

Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt

Samejima F (1969) Estimation of latent ability using a response pattern of graded scores

Richmond VA Richmond Byrd Press Retrieved from

httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-

graded-scoresoclc193662

Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch

model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from

httpwwwraschorgrmtrmt253dhtm

Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand

Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an

algebraic derivation Signal Processing 89(6) 1260ndash1262

httpdoiorg101016jsigpro200901002

Thomson R (1980) Maximum Likelihood Estimation of variance components Math

Operationsforsch 11 545ndash561

Thurstone L (1925) A method of scaling psychological and educational tests Journal of

Educational Psychology 16 433ndash451 Retrieved from

httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm

Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές

προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη

Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση

μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)

290ndash315 Retrieved from

httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf