QDA-Sampling-RelVal-B.pdf

54
∆ειγματοληψία (Β’) – Αξιοπιστία - Εγκυρότητα Παιδαγωγικό Τμήμα ∆ημοτικής Εκπαίδευσης ∆ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη 2011 - 2012

Transcript of QDA-Sampling-RelVal-B.pdf

Page 1: QDA-Sampling-RelVal-B.pdf

∆ειγµατοληψία (Β’) – Αξιοπιστία - ΕγκυρότηταΠαιδαγωγικό Τµήµα ∆ηµοτικής Εκπαίδευσης

∆ηµοκρίτειο Πανεπιστήµιο ΘράκηςΑλεξανδρούπολη

2011 - 2012

Page 2: QDA-Sampling-RelVal-B.pdf

Η παρουσίαση βασίζεται σε υλικό από…

- Cohen, L., Manion, L. & Keith, M. (2008) Μεθοδολογία Εκπαιδευτικής Έρευνας, Αθήνα: Μεταίχµιο

- Ρούσσος, Π.,Τσαούσης, Γ., (2006). Στατιστική Εφαρµοσµένη στις Κοινωνικές Επιστήµες. Αθήνα: Ελληνικά Γράµµατα.

- http://www.psych.uoa.gr/~roussosp/stats

Page 3: QDA-Sampling-RelVal-B.pdf

Sample Statistics Στατιστικοί δείκτες: Είναι οι δείκτες που περιγράφουνένα δείγµα (π.χ. δειγµατικός µέσος όρος , δειγµατικήτυπική απόκλιση (s))

Παράµετροι: Είναι οι δείκτες που περιγράφουν έναν

πληθυσµό (π.χ. πληθυσµιακός µέσος όρος (µ),πληθυσµιακή τυπική απόκλιση (σ)).

Ν = το µέγεθος του πληθυσµούn = το µέγεθος του δείγµατος

Βασικές Έννοιες - Συµβολισµοί

x

Page 4: QDA-Sampling-RelVal-B.pdf

Στατιστική Συµπερασµατολογία- Από το προηγούµενο µάθηµα γνωρίζουµε ότι στην

εκπαιδευτική έρευνα παίρνουµε ένα ή περισσότερα (συνήθωςτυχαία) δείγµατα από κάποιον πληθυσµό (στον οποίο δεν

έχουµε πρόσβαση) για να εξηγήσουµε φαινόµενα σε επίπεδοπληθυσµού.

- Στόχος µας είναι η εκτίµηση παραµέτρων ενός πληθυσµού καιστηρίζεται σε πληροφορίες που εκµαιεύουµε από ένα δείγµα

του.

- Τέτοιες παράµετροι είναι µεταξύ άλλων η µέση τιµή µιας ή

περισσοτέρων µεταβλητών και οι διακυµάνσεις τους.

- Η εκτίµηση παραµέτρων αποσκοπεί στην εξαγωγή

συµπερασµάτων σχετικά µε τον πληθυσµό που µελετάµε µε

στόχο την πρόβλεψη ή τον καθορισµό της µελλοντικής µας

πολιτικής. 3

Page 5: QDA-Sampling-RelVal-B.pdf

Ας υποθέσουµε ότι θέλουµε να µελετήσουµε την

αναγνωστική ικανότητα του συνόλου των µαθητών της Ε’∆ηµοτικού.

Για το σκοπό αυτό, επιλέγουµε ένα τεστ αναγνωστικής

ικανότητας και το χορηγούµε στην οµάδα µαθητών την οποία

µας ενδιαφέρει να µελετήσουµε.

Ας υποθέσουµε ότι ο µέσος όρος του πληθυσµού είναι µ=65και η τυπική απόκλιση σ=5,6.

Αν επιλέξουµε µέσω τυχαίας δειγµατοληψίας διάφορα

δείγµατα µαθητών από τον πληθυσµό, κανένα από αυτά δενθα έχει τα χαρακτηριστικά του (σφάλµα δειγµατοληψίας

����πρόβληµα στη γενίκευση των συµπερασµάτων µιας

έρευνας). 4

Στατιστική Συµπερασµατολογία (2)

Page 6: QDA-Sampling-RelVal-B.pdf

Κεντρικό Οριακό Θεώρηµα

Κυρίαρχο ρόλο στην αντιµετώπιση του σφάλµατος

δειγµατοληψίας παίζει το Κεντρικό Οριακό Θεώρηµα:

Αν επιλέξουµε µε τυχαία δειγµατοληψία πολλά, µεγάλακαι ίσα µεταξύ τους δείγµατα από ένα πληθυσµό, ηκατανοµή των µέσων όρων τους θα προσεγγίζει την

κανονική κατανοµή.

Συνεπώς, ο µέσος όρος των δειγµατικών µέσων όρωνθα είναι σχεδόν ίδιος µε το µέσο όρο του πληθυσµού.Αυτή η κατανοµή των δειγµατικών µέσων όρων

ονοµάζεται δειγµατοληπτική κατανοµή.

Page 7: QDA-Sampling-RelVal-B.pdf

1X 2X 3X 4X 5X

∆ειγµατοληπτική Κατανοµή

Page 8: QDA-Sampling-RelVal-B.pdf

7

Η κατανοµή των µέσων όρων όλων των πιθανών (άπειρων) δειγµάτων ενός πληθυσµού.

Έχει τη µορφή κανονικής κατανοµής, συνεπώς, ο µέσοςόρος της θα πρέπει να προσεγγίζει τον µέσο όρο τουπληθυσµού, και η τυπική απόκλισή της αντιστοιχεί στοτυπικό σφάλµα (σφάλµα δειγµατοληψίας)

Στην πραγµατικότητα, είναι αδύνατον να κατασκευάσουµετη δειγµατοληπτική κατανοµή, καθώς υπάρχει θεωρητικάάπειρος αριθµός δειγµάτων που µπορούν να εξαγχθούναπό ένα πληθυσµό (υπάρχουν όµως τύποι εκτίµησής της).

Μέσω της δειγµατοληπτικής κατανοµής,χρησιµοποιώντας τους στατιστικούς δείκτες τουδείγµατος µπορούµε να κάνουµε εκτιµήσεις για τιςαντίστοιχες παραµέτρους του πληθυσµού (πχ. µέσοόρο)

∆ειγµατοληπτική Κατανοµή

Page 9: QDA-Sampling-RelVal-B.pdf

8

Επειδή η δειγµατοληπτική κατανοµή ακολουθεί την κανονικήκατανοµή, γνωρίζουµε ότι το 68% περίπου των τιµώνβρίσκεται µέσα στο διάστηµα που ορίζεται από ±1 τυπικήαπόκλιση από το µέσο όρο (z= ± 1).

Άρα η πιθανότητα ο µέσος όρος του δείγµατος να βρίσκεταιστο διάστηµα που ορίζεται από µία τυπική απόκλιση πάνωκαι µία τυπική απόκλιση κάτω είναι 68,25%.

Παρόµοια, η πιθανότητα ο µέσος όρος του δείγµατος ναβρίσκεται στο διάστηµα που ορίζεται από ±2 τυπικέςαποκλίσεις (για την ακρίβεια ± 1,96) είναι 95% (z= ±1,96)και στο διάστηµα που ορίζεται από ±3 τυπικές αποκλίσεις,το 99,7% (z = ±3).

Έτσι, αν υπολογίσουµε την τυπική απόκλιση τηςδειγµατοληπτικής κατανοµής των µέσων όρων, είµαστεσε θέση να υπολογίσουµε µε σχετική βεβαιότητα πόσοµακριά από το µέσο όρο του πληθυσµού βρίσκεται ο µέσοςόρος του δείγµατός µας.

∆ειγµατοληπτική Κατανοµή

Page 10: QDA-Sampling-RelVal-B.pdf

9

Η τυπική απόκλιση µιας τέτοιας κατανοµής ονοµάζεται

τυπικό σφάλµα (standard error) της κατανοµής,συµβολίζεται µε και αντανακλά τη µεταβλητότητα που

µπορεί να έχουν οι τιµές του µέσου όρου, όταν

επαναλάβουµε την έρευνα µε διαφορετικά δείγµατα.

Το τυπικό σφάλµα µπορεί να βρεθεί διαιρώντας την

πληθυσµιακή τυπική απόκλιση µε την τετραγωνική ρίζα του

µεγέθους του δείγµατος. Είναι µια εκτίµηση της τυπικής

απόκλισης του δειγµατικού από τον πληθυσµιακό µέσο.

Επειδή όµως η πληθυσµιακή τυπική απόκλιση συνήθως δεν

είναι γνωστή, χρησιµοποιούµε τη δειγµατική τυπική

απόκλιση:

Υπολογισµός Σφάλµατος ∆ειγµατοληψίας

Xσ σ/ n=

Xσ s/ n=

Page 11: QDA-Sampling-RelVal-B.pdf

10

∆ίνεται ότι η βαθµολογία 100 µαθητών από έναν πληθυσµόέχει µέσο µ=50 και διακύµανση σ2=9. Ποια είναι η

πιθανότητα ο δειγµατικός µέσος να βρίσκεται µεταξύ του

49,4 και του 50,6;Λύση

Γνωρίζουµε ότι η δειγµατοληπτική κατανοµή προσεγγίζει την

κανονική. Υπολογίζουµε το τυπικό σφάλµα (δηλαδή την τυπικήαπόκλιση της δειγµατοληπτικής κατανοµής):

Για να βρούµε την πιθανότητα πρέπει να µετατρέψουµε τις τιµέςσε Ζ-score.

Γνωρίζουµε όµως ότι µεταξύ +/- 2 τυπικών αποκλίσεων(σφαλµάτων) βρίσκεται περίπου το 95% των παρατηρήσεων.

Παράδειγµα #1

Xσ σ/ n 3 / 100 3 /10 0,3= = = =

1

49,4 502

0,3z

−= = − 2

50,6 502

0,3z

−= = +

Page 12: QDA-Sampling-RelVal-B.pdf

11

Ποιό είναι το διάστηµα µέσα στο οποίο θα βρίσκεται οπληθυσµιακός µέσος;

Πιθανότητα ο πληθυσµιακός µέσος να αποκλίνει σεµονάδες τυπικού σφάλµατος από το µέσο όρο τουδείγµατος:

68,25% +/- 1 τυπικό σφάλµα95% +/- 1,96 τυπικά σφάλµατα99% +/- 2,58 τυπικά σφάλµατα99,73% +/- 3 τυπικά σφάλµατα

Η επιθυµητή πιθανότητα ονοµάζεται επίπεδοεµπιστοσύνης. Το αντίστοιχο διάστηµα το ονοµάζουµεδιάστηµα εµπιστοσύνης (Confindence Interval - CI).

∆ιάστηµα Εµπιστοσύνης Πληθυσµιακού Μέσου

Page 13: QDA-Sampling-RelVal-B.pdf

12

Παράδειγµα #2n = 100 Μέσος όρος δείγµατος = 3Τυπική απόκλιση δείγµατος = s = 0,25Υπολογίζουµε το τυπικό σφάλµα:

Συνεπώς:

- 68% CI.: 3 – (1)(0,025) < µ < 3 + (1)(0,025) - 95% CI.: 3 – (1,96)(0,025) < µ < 3 + (1,96)(0,025)- 99% CI: 3 – (2,58)(0,025) < µ < 3 + (2,58)(0,025)- 99,73% CI: 3 – (3)(0,025) < µ < 3 + (3)(0,025)

ή διαφορετικά: Χ µ Χ + s s

z zn n

− < <

s 0, 250,025

10n= =

Χ

Page 14: QDA-Sampling-RelVal-B.pdf

13

Παράδειγµα #3Θέλουµε να υπολογίσουµε το 99% διάστηµα εµπιστοσύνηςτου µέσου όρου του πληθυσµού, από ένα δείγµα n=36 µεµέσο όρο Χ=75 και τυπική απόκλιση s=18.

Υπολογίζουµε το τυπικό σφάλµα:

Συνεπώς:

-99% CI: 75 – (2,58)(3) < µ < 3 + (2,58)(3) ή75 – 7,74 < µ < 75 + 7,74 ή67,26 < µ < 82,74

18 183

636= =

Page 15: QDA-Sampling-RelVal-B.pdf

14

Ψυχοµετρικά Χαρακτηριστικά Κλιµάκων Μέτρησης

Αξιοπιστία Εγκυρότητα

Page 16: QDA-Sampling-RelVal-B.pdf

Εισαγωγή

� Τα ερωτηµατολόγια χρησιµοποιούνται ευρέως ως βασικό

ψυχοµετρικό εργαλείο. Τα ερωτηµατολόγια αυτά βασιζόµενα σε

συγκεκριµένο αριθµό ερωτηµάτων φιλοδοξούν να προσεγγίσουν,δηλαδή να ποσοτικοποιήσουν, διάφορες όψεις του ανθρώπινου

ψυχισµού.

� Ο αποκρινόµενος καλείται να συγκρίνει την συµπεριφορά ή τις

συνήθειές του µε αυτές που περιγράφει το εκάστοτε ερώτηµα και

να απαντήσει σε µία δίτιµη κλίµακα (θετικά-αρνητικά) ή σε κλίµακεςτύπου Likert τη συχνότητα µε την οποία ακολουθεί την

περιγραφόµενη συµπεριφορά.

� Στις περισσότερες των περιπτώσεων ένα ερωτηµατολόγιο είναι

πολυδιάστατο, αποτελούµενο από ερωτήµατα που αναφέρονται σεδιαφορετικές συµπεριφορές ή χαρακτηριστικά και ονοµάζονται

υποκλίµακες ή υποδοκιµασίες. ∆ηλαδή, τα ερωτήµατα αθροίζονταισε µικρότερες οµάδες που κάθε µία µετρά ένα χαρακτηριστικό της

ανθρώπινης συµπεριφοράς.15

Page 17: QDA-Sampling-RelVal-B.pdf

Είναι γνωστό πως ο ανθρώπινος ψυχισµός αλλά και η

συµπεριφορά επηρεάζονται από το στενό και ευρύτερο

περιβάλλον. Έτσι, καθώς οι κοινωνικό-πολιτισµικές και οικονοµικέςσυνθήκες αλλά και η κουλτούρα διαφέρουν ανάµεσα στα έθνη, είναιεύλογο πως η χρήση ενός ερωτηµατολογίου σε δείγµα πληθυσµού

διαφορετικής εθνότητας από αυτόν για τον οποίο (και επί τουοποίου) δηµιουργήθηκε, προϋποθέτει τον έλεγχο καλής εφαρµογήςτου ή και την µορφοποίησή του, όπου αυτό κρίνεται απαραίτητο.

Αυτό επιτυγχάνεται µε την βοήθεια της ψυχοµετρικής θεωρίας,όπου ένα πλήθος ιδιοτήτων του µεταφρασµένου ερωτηµατολόγιου

µελετώνται, κατευθύνοντας τους ερευνητές προς την πιο αξιόπιστηκαι έγκυρη µεταφορά του στον νέο πληθυσµό (cross validation).

16

Εισαγωγή (2)

Page 18: QDA-Sampling-RelVal-B.pdf

Βασικές Μέθοδοι Συλλογής ∆εδοµένωνΕρευνητικός σχεδιασµός: το σχέδιο που ακολουθεί ο ερευνητής για να οργανώσει και να διεκπεραιώσει τη συλλογή των δεδοµένων της έρευνας.

Βασικές ερευνητικές προσεγγίσεις συλλογής των εµπειρικών δεδοµένων (µε σκοπό είτε την περιγραφή νέων δεδοµένων είτε τον έλεγχο υποθέσεων):

Περιγραφική προσέγγιση (observational approach)Συσχετιστική προσέγγιση (correlational approach)Προπειραµατική προσέγγιση (pre-experimental approach)Ψευδο-πειραµατικοί σχεδιασµοί (quasi-experimental approach)Πειραµατικοί σχεδιασµοί (experimental approach)

Ανεξάρτητα από το ποια µέθοδος θα χρησιµοποιηθεί, ο ερευνητής θα

πρέπει να προσπαθεί να ελαχιστοποιήσει το σφάλµα της µέτρησης µε το

να ελαχιστοποιεί, όσο το δυνατόν, την πιθανότητα επίδρασης µη

ελεγχόµενων παραγόντων στα αποτελέσµατα.17

Page 19: QDA-Sampling-RelVal-B.pdf

Σφάλµα Μέτρησης (Measurement Error)Σφάλµα µέτρησης: η διαφορά (απόκλιση) της

παρατηρούµενης τιµής από την πραγµατική τιµή.

∆ύο είδη σφαλµάτων:- συστηµατικό σφάλµα: οι τιµές µεταβάλλονται µε σταθερό

(συστηµατικό) τρόπο από τη µία µέτρηση στην άλλη (πχ εξάσκηση,λάθος οδηγίες συµπλήρωσης, οτιδήποτε µπορεί να προκαλέσει

σταθερή και προοδευτική βελτίωση ή επιδείνωση των σκορ)- τυχαίο σφάλµα: οι τιµές µεταβάλλονται µε µή σταθερό τρόπο. ∆ενυπάρχει κάποια συγκεκριµένη τάση στην επίδραση των

παραγόντων που προκαλούν το σφάλµα. Συνήθως έχει να κάνει µεαπρόσµενες µεταβολές στις περιστάσεις κάτω από τις οποίες

γίνονται οι µετρήσεις (πχ. αλλαγές στη διάθεση, αυξοµείωση τηςπροσοχής, αλλαγές στη θερµοκρασία, το φωτισµό, θόρυβος,κίνητρα κλπ).

Παρατηρούµενη τιµή = πραγµατική τιµή +/- σφάλµα (τυχαίο + συστηµατικό)

18

Page 20: QDA-Sampling-RelVal-B.pdf

Τεχνικές Μείωσης Σφάλµατος Μέτρησηςσφάλµα οφειλόµενο στον ερευνητή (βαθµός συµφωνίας ερευνητών)- κατάλληλη εκπαίδευση, προσφορά κινήτρων, διαγραφή/τροποποίηση ερωτήσεων/παρατηρήσεων χαµηλής αξιοπιστίας

σφάλµατα εξωτερικά του ερευνητή - υψηλός βαθµός ελέγχου της µέτρησης (τυποποιηµένες και καλά ελεγχόµενες συνθήκες)- χρήση κλιµάκων µε περισσότερα παρά µε λιγότερα θέµατα/ερωτήµατα. Ηµέτρηση ενός χαρακτηριστικού µε ένα ερώτηµα είναι πιθανότερο να

επηρεαστεί από τυχαίο σφάλµα σε σύγκριση µε µία δοκιµασία µε 10παρόµοια ερωτήµατα.- ∆ιαγραφή/τροποποίηση ερωτήσεων που παρουσιάζουν χαµηλό επίπεδο

συσχέτισης µε τη συνολική βαθµολογία.- Pilot study. Πιλοτική έρευνα για την δοκιµή του εργαλείου µέτρησης σε

δείγµα του υπό µελέτη πληθυσµού προκειµένου να εντοπισθούν

δοκιµασίες/ερωτήµατα που δεν είναι αξιόπιστα (πχ περιέχουν ασάφειες,επιδέχονται απαντήσεις που µπορεί να µαντέψει ο ερωτώµενος, προκαλούνδυσφορία, κόπωση, για κάποιο λόγο εµπεριέχουν υψηλό σφάλµα µέτρησης).- Σαφής διατύπωση θεµάτων/ερωτηµάτων και οδηγιών που δίνονται κατά τη µέτρηση (πχ συµπλήρωση δοκιµασιών κλπ).

19

Page 21: QDA-Sampling-RelVal-B.pdf

Ψυχοµετρικές Κλίµακες Μέτρησης

Που θα βρεθεί µια έτοιµη ψυχοµετρική κλίµακα;Πως θα κριθεί η καταλληλότητά της;Πως µπορεί να κατασκευαστεί µια κλίµακα;Ποια διαδικασία χορήγησης είναι η καταλληλότερη;

Τρεις επιλογές-περιπτώσεις(α) Επιλογή από τα υπάρχοντα, σταθµισµένα ψυχοµετρικά τεστ

(β) Επιλογή από τα αυτοσχέδια τεστ που χρησιµοποιήθηκαν από άλλους ερευνητές(γ) Κατασκευή αυτοσχέδιου µέσου από τον ερευνητή, για το σκοπό της έρευνάς του. Προϋπόθεση: Στάθµιση

Σε κάθε περίπτωση πρέπει να γίνει έλεγχος αξιοπιστίας και εγκυρότητας 20

Page 22: QDA-Sampling-RelVal-B.pdf

Μια κλίµακα µέτρησης του άγχους για τη Στατιστική

Να δηλώσετε το βαθµό συµφωνίας ή διαφωνίας σας µε τις παρακάτω προτάσεις (1-5): 1.∆ιαφωνώ απόλυτα 2. ∆ιαφωνώ 3.Ούτε

συµφωνώ/Ούτε διαφωνώ 4. Συµφωνώ 5. Συµφωνώ απόλυτα1. Η Στατιστική µε κάνει να θέλω να βάλω τα κλάµατα 2. Η έννοια της τυπικής απόκλισης µε ενθουσιάζει 3. ∆εν ήµουν ποτέ καλός στα Μαθηµατικά 4. Έχω ονειρευτεί τον Pearson να µου επιτίθεται µε τον δείκτη συσχέτισής του

5. ∆εν καταλαβαίνω τι έχει να µου προσφέρει η Στατιστική στη ζωή µου 6. Κλαίω µε µαύρο δάκρυ όταν ακούω για δείκτες κεντρικής τάσης 7. Έχω ξυπνήσει κάτω απ' την κουβέρτα µου µε τη σκέψη ότι είµαι παγιδευµένος σε µια καµπύλη κανονικής κατανοµής

8. Ζαλίζοµαι όταν βλέπω εξισώσεις 9. Αν είµαι άριστος στη Στατιστική, οι φίλοι µου θα µε θεωρήσουν προβληµατικό

10. Έχει τύχει να µην κοιµηθώ γιατί σκεφτόµουν την έννοια του µέσου όρου 21

Page 23: QDA-Sampling-RelVal-B.pdf

Η διαδικασία της στάθµισης µιας κλίµακας

Η διαδικασία της στάθµισης µιας κλίµακας π.χ. για τον ελληνικόπληθυσµό συνίσταται συνήθως από τα εξής στάδια:

- µετάφραση – απόδοση στα ελληνικά,- εφαρµογή σε δείγµα Ελλήνων,- προσδιορισµός των περιγραφικών δεικτών των κατανοµώντων ερωτηµάτων και των σύνθετων υποκλιµάκων,

- µελέτη της αξιοπιστίας και της εγκυρότητας της κλίµακας τωνυποκλιµάκων.

22

Page 24: QDA-Sampling-RelVal-B.pdf

� Σε όλους τους χώρους της επιστηµονικής έρευνας όπου

λαµβάνεται µία µέτρηση, τίθεται το ζήτηµα της αξιοπιστίας τηςµέτρησης αυτής. Η αξιοπιστία αφορά το κατά πόσο µια

δοκιµασία αναδεικνύει το πραγµατικό µέγεθος του υπό

µέτρηση χαρακτηριστικού.

� Για παράδειγµα, κατά πόσο µια ζυγαριά µετρά το πραγµατικόβάρος ενός αντικειµένου ή µια κλίµακα ευφυΐας το βαθµό

ευφυίας.

� Η αξιοπιστία είναι συνώνυµη της συνέπειας (consistency), όπως αυτή ορίζεται µέσω της επαναληπτικότητας (repeatability) και της αναπαραγωγισιµότητας (reproducibility) ενός αποτελέσµατος.

� Αν τα παραπάνω ισχύουν τότε µπορούµε να ισχυρισθούµε ότι

µετράµε κατά ένα µεγάλο ποσοστό την πραγµατική τιµή του

βάρους, ενώ το ποσοστό των σφαλµάτων µέτρησης είναι µικρό.∆ηλαδή µπορούµε να ισχυριστούµε ότι η µέτρηση µας είναι

αξιόπιστη. 23

Αξιοπιστία Εργαλείων Μέτρησης

Page 25: QDA-Sampling-RelVal-B.pdf

Η εµφάνιση της έννοιας της αξιοπιστίας αποδίδεται στον

C. Spearman, ο οποίος πρώτος επισήµανε την ύπαρξη

σφαλµάτων σε µια µέτρηση, που δεν ταυτίζονται µε το

δειγµατοληπτικό σφάλµα.

Ακόµη και σε περιπτώσεις όπου δεν υπάρχει δειγµατοληψία,υπάρχουν σφάλµατα. Πρόκειται για τα σφάλµατα µέτρησης,τα οποία ταξινοµούνται σε τυχαία και συστηµατικά.Σύµφωνα µε τον Spearman, τα σφάλµατα αυτά µπορούν ναεκτιµηθούν από το µέγεθος της ασυµφωνίας διαδοχικών,επαναληπτικών µετρήσεων (Spearman, 1904).

24

Αξιοπιστία Εργαλείων Μέτρησης

Page 26: QDA-Sampling-RelVal-B.pdf

Πώς µετράµε την αξιοπιστία; (1)

Κλασσική Ψυχοµετρική Θεωρία: Κάθε µέτρηση Χ που

λαµβάνεται, είναι το άθροισµα δύο συνιστωσών, της

πραγµατικής τιµής Τ (true score) και του τυχαίου σφάλµατοςτης µέτρησης ε. ∆ηλαδή ισχύει:

Χ = Τ + ε ή διαφορετικάΠαρατηρούµενη τιµή = πραγµατική τιµή + σφάλµα

Τι ποσοστό όµως της κάθε µέτρησης είναι η πραγµατική τιµή;Αυτό ακριβώς καλείται να απαντήσει η έννοια της αξιοπιστίας.H αξιοπιστία ουσιαστικά είναι ο λόγος της πραγµατικής τιµής

προς την παρατηρούµενη σε µία µέτρηση, δηλαδή το πηλίκο

25

πραγµατική τιµήαξιοπιστία

παρατηρούµενη τιµή ε

Τ Τ= = =

Χ Τ+

Page 27: QDA-Sampling-RelVal-B.pdf

Τεχνικά, η αξιοπιστία µέτρησης αφορά την διακύµανση των τιµώνσε µία οµάδα ανθρώπων (και όχι τη µέτρηση σε µεµονωµένα

άτοµα). Συνεπώς έχει νόηµα να µιλάµε για τη διακύµανση των

τιµών (µιας µεταβλητής) σε ένα δείγµα ατόµων, ή την κατανοµή τωντιµών της εντός της οµάδας.

Συνεπώς:

Ο υπολογισµός του παρονοµαστή γίνεται στην έρευνα. Ο

υπολογισµός της τιµής του αριθµητή είναι στην ουσία ανέφικτος.Με τη βοήθεια της στατιστικής (reliability analysis, SPSS)µπορούµε να εκτιµήσουµε το ποσοστό επί της συνολικής

διακύµανσης που οφείλεται σε τυχαία σφάλµατα µέτρησης.Μπορούµε λοιπόν να έχουµε µία εκτίµηση του ποσοστού της

παρατηρούµενης διακύµανσης των σκορ που οφείλεται σε τυχαία

σφάλµατα µέτρησης, άρα και µία εκτίµηση του τυχαίου σφάλµατος.26

∆ιακύµανση πραγµατικών τιµώναξιοπιστία

∆ιακύµανση παρατηρούµενων τιµών=

Πώς µετράµε την αξιοπιστία; (2)

Page 28: QDA-Sampling-RelVal-B.pdf

∆είκτες ΑξιοπιστίαςΟι δείκτες αξιοπιστίας παρέχουν µία εκτίµηση του ποσοστού της κοινής διακύµανσης µεταξύ του παρατηρούµενου και του πραγµατικού σκορ.

Ο πιο δηµοφιλής

- δείκτης εσωτερικής συνέπειας Cronbach’s α (alpha), τιµέςµεταξύ 0 και 1

Ενδεικτικές τιµές δείκτη αξιοπιστίας:< 0.6 η κλίµακα είναι αναξιόπιστη0.6 το ελάχιστο αποδεκτό όριο (µή αποδεκτό για κλίµακες µε πολλά items-προτάσεις)0.7 επαρκές, αλλά όχι καλό0.8 καλύτερο0.95 πολύ υψηλή αξιοπιστία (µάλλον σπάνιο)

27

Page 29: QDA-Sampling-RelVal-B.pdf

28

Οι έννοιες της αξιοπιστίας (1)Υπάρχουν τρεις διαφορετικές έννοιες της αξιοπιστίας: η σταθερότητα, ηισοδυναµία και η εσωτερική συνέπεια.

Α. Σταθερότητα (των µετρήσεων στο χρόνο)Συνέπεια των µετρήσεων των ίδιων µεταβλητών µε το ίδιο εργαλείο

µέτρησης, στο ίδιο ή παρόµοιο δείγµα στο χρόνο. Προκειµένου να

βεβαιωθούµε ότι το ύψος του τυχαίου σφάλµατος είναι χαµηλό κάνουµε

διαδοχικές µετρήσεις µε τα ίδια όργανα µέτρησης στο ίδιο δείγµα ή σε

δείγµα µε παρόµοια χαρακτηριστικά.

Το διάστηµα µεταξύ των µετρήσεων θα πρέπει να είναι αρκετά µεγάλο,ώστε να µην θυµάται το άτοµο τις απαντήσεις του, αλλά όχι

υπερβολικά µεγάλο, γιατί υπάρχει ο κίνδυνος να αλλάξει τη τιµή τηςµεταβλητής που µας ενδιαφέρει να µετρήσουµε (πχ λόγω ωρίµανσης ή

µάθησης).

Προβλήµατα προσέγγισης: - Πρακτικές δυσκολίες στην επανάληψη µετρήσεων - Πρόβληµα διακύµανσης των τιµών των µεταβλητών στο χρόνο λόγω εξάσκησης, µνήµης

Page 30: QDA-Sampling-RelVal-B.pdf

29

Οι έννοιες της αξιοπιστίας (2)

Β. Ισοδυναµία (µορφών, βαθµολογητών)Η ισοδυναµία µπορεί να επιτευχθεί µέσω της χρήσης ισοδύναµων

µορφών µιας δοκιµασίας ή ενός οργάνου συλλογής δεδοµένων. Στηνπερίπτωση που η ισοδύναµη µορφή επιφέρει παρόµοια αποτελέσµατα,τότε µπορούµε να ισχυριστούµε ότι το εργαλείο επιδεικνύει τη

συγκεκριµένη µορφή αξιοπιστίας. Η αξιοπιστία ως ισοδυναµία µπορεί

επίσης να επιτευχθεί µέσω της συµφωνίας µεταξύ των ερευνητών που

συµµετέχουν στην έρευνα.

Γ. Εσωτερική Συνέπεια (εργαλείου µέτρησης)Ενώ οι προηγούµενες µορφές απαιτούν τα ερευνητικά εργαλεία να εφαρµοστούν δύο ή περισσότερες φορές, για να έχουµε εσωτερική συνέπεια απαιτείται να εφαρµοστούν µόνο µία φορά.

Μια εκτίµηση της εσωτερικής συνέπειας του ερευνητικού εργαλείου δίνει ο δείκτης Cronbach’s α.

Page 31: QDA-Sampling-RelVal-B.pdf

1. Αξιοπιστία ελέγχου-επανελέγχου (test-retest reliability)Αναφέρεται στο βαθµό συνέπειας που παρουσιάζουν διαδοχικές

µετρήσεις µε το ίδιο εργαλείο µέτρησης στο ίδιο δείγµα και κάτω

από τις ίδιες συνθήκες. Προϋποθέτει τη διαχρονική σταθερότητατων µετρήσεων, Πρακτικές δυσκολίες στη διεξαγωγή διαδοχικώνµετρήσεων, προβλήµατα εξάσκησης, µνήµης.

2. Ισοδύναµων ή Παράλληλων Μορφών (parallel forms)∆ιαδοχικές µετρήσεις µε ισοδύναµες µορφές του ίδιου οργάνου, καιυπολογισµός ενός δείκτη συσχέτισης των µετρήσεων.Αντιµετώπιση των επιδράσεων εξάσκησης ή µνήµης. Προϋπόθεσηότι και οι δύο µορφές του εργαλείου µετρούν το ίδιο

χαρακτηριστικό. Χρησιµοποιείται όταν έχουµε µετρήσεις «Πριν καιΜετά (Pre/Post)»

3. Aξιοπιστία µεταξύ παρατηρητών/βαθµολογητών (inter-rater reliability)Ο βαθµός συνέπειας των εκτιµήσεων µεταξύ δύο βαθµολογητών ή δύο παρατηρητών (όταν πρόκειται για παρατήρηση). 30

Είδη Αξιοπιστίας – Ειδικά (1)

Page 32: QDA-Sampling-RelVal-B.pdf

4. Τεχνική των δύο τµηµάτων (split-half technique) Υπολογισµός του βαθµού συνοχής δύο τµηµάτων του ίδιου εργαλείου (συσχέτιση βαθµολογιών). Το εργαλείο (τεστ) χορηγείται µία φορά, και ο διαχωρισµός των τµηµάτων γίνεται εκ των υστέρων από τους ερευνητές µε αυθαίρετο τρόπο. Μειονέκτηµα το ότι η τιµή του δείκτης συσχέτισης µεταξύ των δύο µερών εξαρτάται από την επιλογή των ερωτήσεων για το κάθε τµήµα.

5. ∆είκτης εσωτερικής συνέπειας του Cronbach (Cronbach’s α)Ο δείκτης α, είναι ένας δείκτης της εσωτερικής συνέπειας ενός τεστ(internal consistency), και υπολογίζεται από τη συσχέτιση της κάθεερώτησης του τεστ µε την συνολική κλίµακα. Είναι από τις

περισσότερο δηµοφιλείς τεχνικές υπολογισµού της αξιοπιστίας

(Cronbach, 1951).

31

Είδη Αξιοπιστίας - Ειδικά (2)

Page 33: QDA-Sampling-RelVal-B.pdf

32

α. Λάθη στη συµπλήρωση του τεστβ. Απαντήσεις στη τύχη (πχ σε ερωτήµατα τύπου σωστό/λάθος)γ. Μικρός αριθµός items δ. Items που δεν είναι ξεκάθαρα και µπορούν να µπερδέψουν τους συµµετέχοντες ε. Οδηγίες που δεν είναι ακριβείς και ξεκάθαρεςστ. Σφάλµα που οφείλεται στους συµµετέχοντες (π.χεπιδράσεις διάθεσης, κινήτρων, κούραση, πλήξη κλπ)ζ. Χαµηλή εγκυρότητα όψης (face validity)η. Μεταβολές στις συνθήκες θ. ∆ιακυµάνσεις στη διάθεση, στα κίνητρα συµµετοχής κλπ

Παράγοντες που µειώνουν την αξιοπιστία

Page 34: QDA-Sampling-RelVal-B.pdf

Πιθανά Προβλήµατα

1. Μικρό µέγεθος δείγµατος (<200). Για τον καλύτερο υπολογισµό του δείκτη αξιοπιστίας και την ελαχιστοποίηση του σφάλµατος απαιτούνται µεγάλα δείγµατα. Πρακτικός κανόνας: 10 υποκείµενα για κάθε item.

2. Χρήση µη αντιπροσωπευτικών και µη κατάλληλων δειγµάτων

3. Αγνόηση της εγκυρότητας της κλίµακας υπό κατασκευή. Κάποια itemsµπορεί να συσχετίζονται συµπτωµατικά µεταξύ τους και συνεπώς να

προκύπτει υψηλός δείκτης αξιοπιστίας, αλλά σαν σύνολο η κλίµακα να µηµετράει την έννοια που µας ενδιαφέρει.

4. Προσπαθώντας να καταλήξουµε σε µία κλίµακα µε υψηλή αξιοπιστία

υπάρχει ο κίνδυνος να καταλήξουµε µε πολύ λίγα items. Όταν

ενδιαφερόµαστε να κατασκευάσουµε µια κλίµακα είναι συνετό να έχουµε

ένα θεωρητικό υπόβαθρο που να µας κατευθύνει, και να αποφεύγουµετην τεχνική του ‘ψαρέµατος’ των δεδοµένων.

5. Μπορεί να έχουµε µία πολύ καλή διερευνητική ανάλυση παραγόντων, καιπαρόλα αυτά να µην καταλήξουµε σε µία αξιόπιστη κλίµακα.

33

Page 35: QDA-Sampling-RelVal-B.pdf

Σωστό ή ΛάθοςΣφάλµα δειγµατοληψίας είναι η διαφορά ανάµεσα σε ένα στατιστικό του δείγµατος και σε µια παράµετρο του πληθυσµού, η οποία οφείλεται σε τυχαίους παράγοντες και σε ατοµικές διαφορές ανάµεσα στα υποκείµενα που αποτελούν κάθε φορά το δείγµα µας.

Κατά την αξιοπιστία µιας ζυγαριάς το ζήτηµα που τίθεται δεν είναι αν η συγκεκριµένη τιµή του βάρους αντανακλά το πραγµατικό βάρος του αντικειµένου, αλλά αν η ζυγαριά τείνει να δίνει γενικά µετρήσεις πολύ κοντά στο πραγµατικό βάρος όλων των αντικειµένων.

34

Page 36: QDA-Sampling-RelVal-B.pdf

35

Ψυχοµετρικά Χαρακτηριστικά Κλιµάκων Μέτρησης

Αξιοπιστία Εγκυρότητα

«Μια κλίµακα ή ένα εργαλείο µέτρησης µπορεί να είναι αξιόπιστη/ο, αλλά όχι έγκυρη/ο. Αντίθετα, αν µια µέτρηση είναι έγκυρη τότε είναι και αξιόπιστη/ο»

Page 37: QDA-Sampling-RelVal-B.pdf

Βασικά Είδη Εγκυρότητας (Validity)

Εσωτερική Εγκυρότητα (Internal validity)

Εξωτερική Εγκυρότητα (External validity)

Εγκυρότητα Περιεχοµένου (Content validity)

Εγκυρότητα Κριτηρίου (Criterion validity)

Εγκυρότητα Εννοιολογικής Κατασκευής (Construct validity)

Page 38: QDA-Sampling-RelVal-B.pdf

Εσωτερική ΕγκυρότηταΕσωτερική εγκυρότητα: τα αποτελέσµατα µιας µελέτης

υποδεικνύουν µία αιτιώδη σχέση µεταξύ των µεταβλητών. Η ύπαρξησυσχετίσεων δεν σηµαίνει την ύπαρξη αιτιωδών σχέσεων. Μπορείνα µεσολαβούν λανθάνοντες παράγοντες που προκαλούν εµµέσως

το αποτέλεσµα.

Επιδράσεις λανθανόντων παραγόντων:1.χρήση µιας οµάδας υποκειµένων2.προβλήµατα από τη χρήση πολλαπλών οµάδων3.αδυναµία ελέγχου εξωτερικών επιδράσεων στη συµπεριφορά και τις στάσεις των υποκειµένων (κοινωνικές επιδράσεις).

Για να αντιµετωπιστούν τα δύο πρώτα: α) χρήση οµάδας παρέµβασης / οµάδας ελέγχου, β) κατάλληλη επιλογή υποκειµένων για τις οµάδες (τυχαιοποίηση) γ) χειρισµοί πανοµοιότυποι προς όλες τις οµάδες (µε εξαίρεση τον χειρισµό της ανεξάρτητης µεταβλητής).

Page 39: QDA-Sampling-RelVal-B.pdf

Εξωτερική ΕγκυρότηταΕξωτερική εγκυρότητα: τα αποτελέσµατα να µπορούν αν

γενικευθούν σε διαφορετικούς πληθυσµούς (διαφορετικά τµήµατα

του υπό µελέτη πληθυσµού) και καταστάσεις (διαφορετικέςσυνθήκες από αυτές που περιλαµβάνονται στην µελέτη).

Η δυνατότητα γενίκευσης είναι συνάρτηση του βαθµού οµοιότητας

µεταξύ του δείγµατος και των τµηµάτων του πληθυσµού και µεταξύ

των συνθηκών στις οποίες θέλουµε να γενικεύσουµε τα

αποτελέσµατα.

Εξαρτάται από: α) παράγοντες που σχετίζονται µε τη δυνατότηταγενίκευσης σε άλλα άτοµα ή οµάδες µε διαφορετικά δηµογραφικά

χαρακτηριστικά, β) δυνατότητα γενίκευσης σε διαφορετικό κοινωνικόπερίγυρο, γεωγραφική τοποθεσία ή κατάσταση, γ) παράγοντες πουσχετίζονται µε τη δυνατότητα γενίκευσης σε διαφορετικά χρονικά

διαστήµατα.

Page 40: QDA-Sampling-RelVal-B.pdf

Εγκυρότητα Περιεχοµένου

39

Ο βαθµός στον οποίο τα µέρη του τεστ (item)εκπροσωπούν επάξια όλες τις πιθανές διαστάσεις του

φαινοµένου που αξιολογείται. Απαντά στο ερώτηµα,πόσο πλήρες είναι το εργαλείο µέτρησης;

Για παράδειγµα, µια κλίµακα κατάθλιψης δεν έχει

εγκυρότητα περιεχοµένου, όταν περιλαµβάνει µόνο τησυναισθηµατική διάσταση και όχι τη διάσταση της

συµπεριφοράς.

Page 41: QDA-Sampling-RelVal-B.pdf

∆ιαδικασία εκτίµησης της εγκυρότητας περιεχοµένου

Εξ’ ολοκλήρου υποκειµενική αξιολόγηση.Η αντιπροσωπευτικότητα των στοιχείων του εργαλείου

µέτρησης αναφορικά µε το αντικείµενο του ενδιαφέροντος

γίνεται από τον ερευνητή, ενδεχοµένως σε συνεργασία µε

συνεργάτες-κριτές.

1. Καταγραφή του συνόλου των στοιχείων που µπορεί να

σχετίζονται µε την έννοια που µας ενδιαφέρει. Η επιλογή

γίνεται µε βάση:α) τη θεµατική ή εννοιολογική σχέση µεταξύ παρατηρήσιµωνσυµπεριφορών και του αντικειµένου µέτρησης

β) εµπειρικά δεδοµένα από προηγούµενες έρευνες που

τεκµηριώνουν τη σχέση αυτή.

40

Page 42: QDA-Sampling-RelVal-B.pdf

2. από το σύνολο των στοιχείων αυτών επιλέγονται εκείνα πουθεωρούνται ότι έχουν µεγαλύτερη συνάφεια µε την υπό

µελέτη ιδιότητα. Πιλοτική έρευνα σε δείγµα παρόµοιο µε τονπληθυσµό του ενδιαφέροντος µπορεί να βοηθήσει να

επιλεχθούν τα θέµατα/προτάσεις που λειτουργούν µε τον

αναµενόµενο τρόπο και να απορριφθούν εκείνα που δεν είναι

κατάλληλα.

Συµπερασµατικά:η ακρίβεια του λειτουργικού προσδιορισµού θα είναι καταλυτική για

τη αξιολόγηση της εγκυρότητας του περιεχοµένου ενός

εργαλείου/µιας δοκιµασίας µέτρησης.Η εγκυρότητα περιεχοµένου καθορίζεται από την αρχή, από τηνεπιλογή των θεµάτων/ερωτηµάτων µέτρησηςΗ επιλογή των στοιχείων/θεµάτων είναι εξ ολοκλήρου υποκειµενικήκαι βασίζεται στην υποκειµενική κρίση του ερευνητή/ερευνητών.

41

∆ιαδικασία εκτίµησης της εγκυρότητας περιεχοµένου

Page 43: QDA-Sampling-RelVal-B.pdf

Εγκυρότητα ΚριτηρίουΟ βαθµός στον οποίο οι τιµές ενός τεστ σχετίζονται µε τις τιµές

κάποιου άλλου τεστ το οποίο θεωρείται κοινά αποδεκτό

κριτήριο ή αντικειµενικό αποτέλεσµα.

Ένας τρόπος για να ελεγχθεί η εγκυρότητα βάσει κριτηρίου

είναι να συσχετιστούν τα αποτελέσµατα ενός τεστ µε αυτά ενός

µελλοντικού τεστ που µετρά την ίδια ή παρόµοια επίδοση ή

συµπεριφορά. Αν το αρχικό τεστ µπορεί να προβλέψει µια

µελλοντική επίδοση ή συµπεριφορά τότε υπάρχει προβλεπτική

εγκυρότητα (predictive validity).

Ένας άλλος τρόπος είναι να συσχετιστούν οι µετρήσεις του

τεστ µε ένα άλλο που µετρά το ίδιο ή ένα συναφές

χαρακτηριστικό. Αυτή είναι η συντρέχουσα εγκυρότητα

(concurent validity).

Page 44: QDA-Sampling-RelVal-B.pdf

∆ιαδικασία προσδιορισµού της εγκυρότητας κριτηρίου

επιλογή κατάλληλων συµπεριφορών που θα έχουν το ρόλο

του κριτηρίου, και κατάλληλων εργαλείων για την µέτρησή

τους

επιλογή αντιπροσωπευτικού δείγµατος συλλογή δεδοµένων µε το υπό µελέτη εργαλείο

συλλογή δεδοµένων µε το εργαλείο-κριτήριο στην κατάλληλη χρονική στιγµή

προσδιορισµός της σχέσης µεταξύ βαθµολογιών στο υπό µελέτη και το εργαλείο-κριτήριο

43

Page 45: QDA-Sampling-RelVal-B.pdf

Προβλήµατα:

- Η χρήση κατάλληλου εργαλείου-κριτηρίου (δύσκολος ο

εντοπισµός κριτηρίων για προσδιορισµό εγκυρότητας,ιδιαίτερα για τις περισσότερο αφηρηµένες µεταβλητές)- Η χρησιµοποίηση µη επαρκούς δείγµατος- Αλλοίωση των αποτελεσµάτων της εξέτασης στο κριτήριο- Μικρός βαθµός αξιοπιστίας των εργαλείων µέτρησης-Συχνά για πρακτικούς λόγους ο ερευνητής επιλέγει

µεταβλητές που µπορούν να µετρηθούν άµεσα

44

∆ιαδικασία προσδιορισµού της εγκυρότητας κριτηρίου

Page 46: QDA-Sampling-RelVal-B.pdf

Εννοιολογικής Κατασκευής

Η επιστηµονική αξία των αποτελεσµάτων κάθε µελέτης που

ασχολείται µε µια εννοιολογική κατασκευή πχ. κατάθλιψηεξαρτάται µε το αν το εργαλείο µέτρησης της κατάθλιψης

µετρά αυτό και όχι κάτι άλλο (πχ. ψύχωση).Η εγκυρότητα εννοιολογικής κατασκευής ενσωµατώνει

διαφορετικές µορφές εγκυρότητας και απαντά στο ερώτηµα,α) κατά πόσο το εργαλείο µέτρησης µετρά την έννοια του

ενδιαφέροντος µας και β) κατά πόσο το εργαλείο µας είναι

συναφές µε παρόµοια εργαλεία ή παραλλαγές του ίδιου

εργαλείου.Έχει να κάνει µε τη διατύπωση υποθέσεων (σχετικά µε το τι είναιη έννοια που µας ενδιαφέρει), που στηρίζονται σε µια θεωρίασυµπεριφοράς ή διαµορφώνονται από την παρατήρηση µιας

συγκεκριµένης συµπεριφοράς. Οι υποθέσεις αυτές µπορούν ναεπαληθευτούν ή να διαψευσθούν κατά την αξιολόγηση της

εννοιολογικής εγκυρότητας. � απαραίτητη

Page 47: QDA-Sampling-RelVal-B.pdf

Στάδια διαδικασίας προσδιορισµού εγκυρότητας

εννοιολογικής κατασκευής (συνοπτικά):

1. ορισµός θεωρητικού υπόβαθρου που πλαισιώνει το υπό µελέτη φαινόµενο2. διατύπωση υποθέσεων σχετικά µε τις σχέσεις εµπλεκόµενων παραγόντων3. συλλογή εµπειρικών δεδοµένων (από δείγµα αντιπροσωπευτικό του πληθυσµού) µε το συγκεκριµένο εργαλείο που αφορούν τις σχέσεις των παραγόντων αυτών4. ανασκόπηση δεδοµένων και προσδιορισµός των διαστάσεων τις οποίες µετρά το εργαλείο και του βαθµού στον οποίο αντιπροσωπεύει την υπο µελέτη εννοιολογική κατασκευή και όχι άλλες, µελέτη συνάφειας µε παρόµοια εργαλεία ή µη συνάφειας µε τελείως διαφορετικά εργαλεία

46

∆ιαδικασία εκτίµησης της εννοιολογικής εγκυρότητας

Page 48: QDA-Sampling-RelVal-B.pdf

Παράδειγµα:Μελέτη εγκυρότητας µιας νέας δοκιµασίας κατάθλιψης

(πολλές διαστάσεις). ∆είγµα: µαθητές Γ’ δηµοτικού (200άτοµα), δοκιµασία µε απαντήσεις σε µια πεντάβαθµη κλίµακασυµφωνίας/διαφωνίας.

Οµαδοποιούµε προτάσεις (items) που συσχετίζονται µεταξύτους, και προσδιορίζουµε τον βασικό αριθµό των διαστάσεωντης έννοιας της κατάθλιψης (π.χ. συναισθηµατική διάσταση,διάσταση συµπεριφοράς κτλ).

Η παραπάνω οµαδοποίηση και ο έλεγχος παραγοντικής

εγκυρότητας γίνεται µε τη µέθοδο της Ανάλυσης Παραγόντων

(factor analysis).47

∆ιαδικασία εκτίµησης της εννοιολογικής εγκυρότητας

Page 49: QDA-Sampling-RelVal-B.pdf

Μέθοδοι αξιολόγησης της εγκυρότητας εννοιολογικής

κατασκευής:

1. Ανάλυση παραγόντων (factor analysis)µέθοδος µε την οποία οµαδοποιούµε στοιχεία/θέµαταµετρήσεων τα οποία συσχετίζονται µεταξύ τους, και

προσδιορίζουµε τον βασικό αριθµό των διαστάσεων της

έννοιας.Η υψηλή συσχέτιση κάποιων ερωτηµάτων δείχνει ότι αυτά

αντιπροσωπεύουν σε µεγαλύτερο ή µικρότερο βαθµό την ίδια

εννοιολογική κατασκευή (ένας παράγοντας, µία εννοιολογικήκατασκευή. Η φύση της συµπεραίνεται/αποφασίζεται από τιςκοινές ιδιότητες των επιµέρους δοκιµασιών της

συγκεκριµένης οµάδας).48

∆ιαδικασία εκτίµησης της εννοιολογικής εγκυρότητας

Page 50: QDA-Sampling-RelVal-B.pdf

2.Πίνακας πολλαπλών χαρακτηριστικών-πολλαπλώνµεθόδων (multitrait-multimethod matrix, Campbell & Fiske,1959)

Περισσότερο ασχολείται µε την επάρκεια ενός εργαλείου για

τη µέτρηση µιας έννοιας παρά µε την εγκυρότητα της έννοιας

ως αντιπροσωπευτικής ενός ψυχολογικού φαινοµένου.Η τεχνική συνίσταται στην επιλογή κι άλλων εννοιολογικών

κατασκευών, οι οποίες µπορούν να µετρηθούν µε τις ίδιες

µεθόδους. Ο ερευνητής συλλέγει δεδοµένα για την κάθε µία

από αυτές τις έννοιες µε κάθε µία από τις µεθόδους, καιυπολογίζει τους συντελεστές συσχέτισης σε όλα τα πιθανά

ζεύγη µετρήσεων.

49

∆ιαδικασία εκτίµησης της εννοιολογικής εγκυρότητας

Page 51: QDA-Sampling-RelVal-B.pdf

∆είκτες µετρήσεων:

α) δείκτες συγκλίνουσας εγκυρότητας (convergentvalidity coefficients) . Συντελεστές συσχέτισης µεταξύ

µετρήσεων της ίδιας εννοιολογικής κατασκευής µε διαφορετικές

µεθόδους. Αν η εγκυρότητα των µετρήσεων είναι υψηλή, οισυσχετίσεις θα πρέπει να είναι υψηλές.

β) δείκτες αποκλίνουσας ή διακριτικής εγκυρότητας

(divergent or discriminant validity coefficients) .Συντελεστές συσχέτισης µεταξύ µετρήσεων διαφορετικών

εννοιολογικών κατασκευών µε την ίδια µέθοδο και συντελεστές

συσχέτισης µεταξύ πολλαπλών µετρήσεων διαφορετικών

κατασκευών µε διαφορετικές µεθόδους. Αυτοί οι συντελεστέςσυσχέτισης θα πρέπει να είναι πολύ χαµηλοί (τα εργαλεία αυτάνα διαφοροποιούνται).

50

∆ιαδικασία εκτίµησης της εννοιολογικής εγκυρότητας

Page 52: QDA-Sampling-RelVal-B.pdf

Παράδειγµα:Μελέτη εγκυρότητας µιας νέας δοκιµασίας κατανόησης

κειµένου (µία διάσταση). ∆είγµα: µαθητές Γ’ δηµοτικού (200άτοµα), δοκιµασία µε απαντήσεις σωστό/λάθος.Ο βαθµός κατανόησης εξετάζεται µε δύο ακόµη µεθόδους:δοκιµασία µε ερωτήσεις πολλαπλής επιλογής και

συµπλήρωση ελλιπών προτάσεων.Με τις ίδιες µεθόδους συλλέγονται δεδοµένα για δύο άσχετες

έννοιες: ικανότητα επίλυσης λογικών προβληµάτων, και

ικανότητα κατανόησης σχέσεων µεταξύ εννοιών.Υπολογίζουµε τους συντελεστές συγκλίνουσας εγκυρότητας

και τους συντελεστές αποκλίνουσας εγκυρότητας.

51

∆ιαδικασία εκτίµησης της εννοιολογικής εγκυρότητας

Page 53: QDA-Sampling-RelVal-B.pdf

Σωστό ή ΛάθοςΈνα ερευνητικό εργαλείο µπορεί να είναι αξιόπιστο χωρίς να είναι έγκυρο.Η εγκυρότητα κριτηρίου αφορά στην πληρότητα µιας κλίµακας µέτρησης.Για τον έλεγχο της εγκυρότητας εννοιολογικής κατασκευής οµαδοποιούµε τις προτάσεις (items) µιας κλίµακας που συσχετίζονται µεταξύ τους, και προσδιορίζουµε τον βασικό αριθµό των διαστάσεων της εννοιολογικής κατασκευής.

52

Page 54: QDA-Sampling-RelVal-B.pdf

53

Αξιόπιστο, Μη Έγκυρο Μη Έγκυρο, Μη Αξιόπιστο Έγκυρο, Αξιόπιστο