Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική...

39
140 Κεφάλαιο 5 Ανάλυση Συσχέτισης - Παλινδρόμησης Χωρική Αυτοσυσχέτιση - Χωρική Παλινδρόμηση Σύνοψη Στο κεφάλαιο αυτό παρουσιάζονται βασικές μέθοδοι επεξεργασίας δύο ή περισσότερων μεταβλητών και συγκεκριμένα η ανάλυση συσχέτισης και η ανάλυση παλινδρόμησης. Με τη συσχέτιση εξετάζεται αν δύο ή περισσότερες μεταβλητές έχουν σχέση μεταξύ τους, πόσο ισχυρή είναι η σχέση αυτή και ποια κατεύθυνση έχει. Η ανάλυση παλινδρόμησης στηρίζεται στην ανάλυση συσχέτισης και αφορά τη δόμηση ενός μοντέλου για την ερμηνεία μίας μεταβλητής από μία ή περισσότερες μεταβλητές οι οποίες αποτελούν τους επεξηγηματικούς παράγοντες. Η ανάλυση παλινδρόμησης έχει πολύ σημαντικές εφαρμογές σε γεωγραφικά δεδομένα και έχουν αναπτυχθεί μέθοδοι χωρικής παλινδρόμησης οι οποίες λαμβάνουν υπόψη το φαινόμενο της χωρικής αυτοσυσχέτισης. Στο κεφάλαιο αυτό θα παρουσιαστούν δείκτες για τη μέτρηση της χωρικής αυτοσυσχέτισης, τρόποι μαθηματικής απεικόνισης της γειτνίασης στον γεωγραφικό χώρο με τη δημιουργία των χωρικών βαρών, καθώς και μοντέλα χωρικής παλινδρόμησης τα οποία λειτουργούν σε περιβάλλον GIS και ενσωματώνουν στους υπολογισμούς τη χωρική αυτοσυσχέτιση. Προαπαιτούμενη γνώση Προαπαιτούμενη γνώση για το κεφάλαιο αυτό είναι ορισμένα βασικά μέτρα της Περιγραφικής Στατιστικής τα οποία έχουν αναπτυχθεί στο Κεφάλαιο 3, όπως ο αριθμητικός μέσος, η διακύμανση, η τυπική απόκλιση και τα διαγράμματα διασποράς, ενώ από το Κεφάλαιο 4 η γνώση των στατιστικών ελέγχων είναι απαραίτητη για την εκτίμηση της αξιοπιστίας των αποτελεσμάτων της ανάλυσης συσχέτισης και της ανάλυσης παλινδρόμησης. 5.1 Εισαγωγή Στο Κεφάλαιο 3 παρουσιάστηκαν τρόποι περιγραφής μεμονωμένων μεταβλητών. Παρουσιάστηκαν για παράδειγμα πίνακες κατανομής συχνοτήτων για τις μεταβλητές ΠΛΗΘΥΣΜΟΣ 2011 και ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ (Πίνακες 3.5 και 3.6), καθώς και τα μέτρα κεντρικής τάσης και διασποράς. Επίσης, στον Πίνακα 3.14 παρουσιάστηκαν ο αριθμητικός μέσος, η τυπική απόκλιση και ο συντελεστής μεταβλητότητας για πέντε μεταβλητές. Παρόλο που οι μεταβλητές αυτές εμφανίζονται σε παράθεση και γίνεται σύγκριση της διασποράς, οι υπολογισμοί των μέτρων κεντρικής τάσης και διασποράς έχουν γίνει ξεχωριστά για κάθε μία από αυτές. Στο κεφάλαιο αυτό θα παρουσιαστούν στατιστικά μέτρα, όπως ο συντελεστής συσχέτισης Pearson r, για τον υπολογισμό των οποίων χρησιμοποιούνται ταυτοχρόνως οι τιμές δύο ή περισσότερων μεταβλητών, με σκοπό να διαπιστωθεί η ύπαρξης σχέσης μεταξύ τους. Στο σημείο αυτό πρέπει να αναφερθούν συμπληρωματικά, κάποιες επεξεργασίες και στατιστικοί έλεγχοι που παρουσιάστηκαν στα Κεφάλαια 3 και 4 και αφορούν τη σχέση μεταξύ δύο μεταβλητών. Οι διασταυρώσεις μεταβλητών και ο έλεγχος Χ 2 αποτελούν βασική μέθοδο για να εξακριβωθεί η ύπαρξη σχέσης μεταξύ δύο ποιοτικών μεταβλητών (βλ. Πίνακες 4.9, 4.10 και 4.12). Ο Πίνακας 3.7 παρουσιάζει τη σχέση της αξίας της κατοικίας (εκφρασμένη σε ομάδες αξίας, δηλαδή στην ιεραρχική κλίμακα) με τη θέση στάθμευσης, και από τη διασταύρωση των τιμών των δύο αυτών μεταβλητών προκύπτει ότι οι φθηνότερες κατοικίες, στο μεγαλύτερο ποσοστό τους, δεν διαθέτουν θέση στάθμευσης, ενώ το αντίθετο συμβαίνει για τις ακριβότερες. Ο έλεγχος Χ 2 χρησιμοποιείται για να ελέγξει την εγκυρότητα των αποτελεσμάτων και να αποφανθούμε αν οι μεταβλητές είναι εξαρτημένες ή ανεξάρτητες ( Πίνακας 4.12). Εξάλλου, οι έλεγχοι t και ANOVA που χρησιμοποιούνται για τη σύγκριση των αριθμητικών μέσων δύο ή περισσότερων ομάδων παρατηρήσεων, μπορεί να θεωρηθεί ότι εκφράζουν τη σχέση μεταξύ μιας ποσοτικής και μιας ποιοτικής μεταβλητής. Όταν παρατηρούμε ότι οι κατοικίες οι οποίες διαθέτουν θέση στάθμευσης είναι κατά μέσο όρο ακριβότερες από αυτές που δεν έχουν, μπορούμε να συμπεράνουμε ότι υπάρχει σχέση μεταξύ των δύο μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ, η οποία είναι εκφρασμένη στην αναλογική κλίμακα μέτρησης (σε ευρώ) και ΘΕΣΗ ΣΤΑΘΜΕΥΣΗΣ η οποία μετριέται στην ονομαστική κλίμακα, με τιμές «ναι» και «όχι». Τόσο οι πίνακες διασταυρώσεων, όσο και οι στατιστικοί έλεγχοι, είναι πολύ χρήσιμες τεχνικές προκειμένου να διαπιστωθεί η σχέση μεταξύ δύο μεταβλητών, ιδιαίτερα όταν η μία τουλάχιστον από αυτές είναι ποιοτική. Στο κεφάλαιο αυτό θα ασχοληθούμε με τη μέτρηση της συσχέτισης και τον υπολογισμό

Transcript of Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική...

Page 1: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

140

Κεφάλαιο 5 Ανάλυση Συσχέτισης - Παλινδρόμησης

Χωρική Αυτοσυσχέτιση - Χωρική Παλινδρόμηση

Σύνοψη

Στο κεφάλαιο αυτό παρουσιάζονται βασικές μέθοδοι επεξεργασίας δύο ή περισσότερων μεταβλητών και

συγκεκριμένα η ανάλυση συσχέτισης και η ανάλυση παλινδρόμησης. Με τη συσχέτιση εξετάζεται αν δύο ή

περισσότερες μεταβλητές έχουν σχέση μεταξύ τους, πόσο ισχυρή είναι η σχέση αυτή και ποια κατεύθυνση έχει. Η

ανάλυση παλινδρόμησης στηρίζεται στην ανάλυση συσχέτισης και αφορά τη δόμηση ενός μοντέλου για την

ερμηνεία μίας μεταβλητής από μία ή περισσότερες μεταβλητές οι οποίες αποτελούν τους επεξηγηματικούς

παράγοντες. Η ανάλυση παλινδρόμησης έχει πολύ σημαντικές εφαρμογές σε γεωγραφικά δεδομένα και έχουν

αναπτυχθεί μέθοδοι χωρικής παλινδρόμησης οι οποίες λαμβάνουν υπόψη το φαινόμενο της χωρικής

αυτοσυσχέτισης. Στο κεφάλαιο αυτό θα παρουσιαστούν δείκτες για τη μέτρηση της χωρικής αυτοσυσχέτισης,

τρόποι μαθηματικής απεικόνισης της γειτνίασης στον γεωγραφικό χώρο με τη δημιουργία των χωρικών βαρών,

καθώς και μοντέλα χωρικής παλινδρόμησης τα οποία λειτουργούν σε περιβάλλον GIS και ενσωματώνουν στους

υπολογισμούς τη χωρική αυτοσυσχέτιση.

Προαπαιτούμενη γνώση

Προαπαιτούμενη γνώση για το κεφάλαιο αυτό είναι ορισμένα βασικά μέτρα της Περιγραφικής Στατιστικής τα

οποία έχουν αναπτυχθεί στο Κεφάλαιο 3, όπως ο αριθμητικός μέσος, η διακύμανση, η τυπική απόκλιση και τα

διαγράμματα διασποράς, ενώ από το Κεφάλαιο 4 η γνώση των στατιστικών ελέγχων είναι απαραίτητη για την

εκτίμηση της αξιοπιστίας των αποτελεσμάτων της ανάλυσης συσχέτισης και της ανάλυσης παλινδρόμησης.

5.1 Εισαγωγή

Στο Κεφάλαιο 3 παρουσιάστηκαν τρόποι περιγραφής μεμονωμένων μεταβλητών. Παρουσιάστηκαν για

παράδειγμα πίνακες κατανομής συχνοτήτων για τις μεταβλητές ΠΛΗΘΥΣΜΟΣ 2011 και ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ

(Πίνακες 3.5 και 3.6), καθώς και τα μέτρα κεντρικής τάσης και διασποράς. Επίσης, στον Πίνακα 3.14

παρουσιάστηκαν ο αριθμητικός μέσος, η τυπική απόκλιση και ο συντελεστής μεταβλητότητας για πέντε

μεταβλητές. Παρόλο που οι μεταβλητές αυτές εμφανίζονται σε παράθεση και γίνεται σύγκριση της

διασποράς, οι υπολογισμοί των μέτρων κεντρικής τάσης και διασποράς έχουν γίνει ξεχωριστά για κάθε μία

από αυτές. Στο κεφάλαιο αυτό θα παρουσιαστούν στατιστικά μέτρα, όπως ο συντελεστής συσχέτισης Pearson

r, για τον υπολογισμό των οποίων χρησιμοποιούνται ταυτοχρόνως οι τιμές δύο ή περισσότερων μεταβλητών,

με σκοπό να διαπιστωθεί η ύπαρξης σχέσης μεταξύ τους.

Στο σημείο αυτό πρέπει να αναφερθούν συμπληρωματικά, κάποιες επεξεργασίες και στατιστικοί

έλεγχοι που παρουσιάστηκαν στα Κεφάλαια 3 και 4 και αφορούν τη σχέση μεταξύ δύο μεταβλητών. Οι

διασταυρώσεις μεταβλητών και ο έλεγχος Χ2 αποτελούν βασική μέθοδο για να εξακριβωθεί η ύπαρξη σχέσης

μεταξύ δύο ποιοτικών μεταβλητών (βλ. Πίνακες 4.9, 4.10 και 4.12). Ο Πίνακας 3.7 παρουσιάζει τη σχέση της

αξίας της κατοικίας (εκφρασμένη σε ομάδες αξίας, δηλαδή στην ιεραρχική κλίμακα) με τη θέση στάθμευσης,

και από τη διασταύρωση των τιμών των δύο αυτών μεταβλητών προκύπτει ότι οι φθηνότερες κατοικίες, στο

μεγαλύτερο ποσοστό τους, δεν διαθέτουν θέση στάθμευσης, ενώ το αντίθετο συμβαίνει για τις ακριβότερες. Ο

έλεγχος Χ2 χρησιμοποιείται για να ελέγξει την εγκυρότητα των αποτελεσμάτων και να αποφανθούμε αν οι

μεταβλητές είναι εξαρτημένες ή ανεξάρτητες ( Πίνακας 4.12).

Εξάλλου, οι έλεγχοι t και ANOVA που χρησιμοποιούνται για τη σύγκριση των αριθμητικών μέσων

δύο ή περισσότερων ομάδων παρατηρήσεων, μπορεί να θεωρηθεί ότι εκφράζουν τη σχέση μεταξύ μιας

ποσοτικής και μιας ποιοτικής μεταβλητής. Όταν παρατηρούμε ότι οι κατοικίες οι οποίες διαθέτουν θέση

στάθμευσης είναι κατά μέσο όρο ακριβότερες από αυτές που δεν έχουν, μπορούμε να συμπεράνουμε ότι

υπάρχει σχέση μεταξύ των δύο μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ, η οποία είναι εκφρασμένη στην αναλογική

κλίμακα μέτρησης (σε ευρώ) και ΘΕΣΗ ΣΤΑΘΜΕΥΣΗΣ η οποία μετριέται στην ονομαστική κλίμακα, με

τιμές «ναι» και «όχι».

Τόσο οι πίνακες διασταυρώσεων, όσο και οι στατιστικοί έλεγχοι, είναι πολύ χρήσιμες τεχνικές

προκειμένου να διαπιστωθεί η σχέση μεταξύ δύο μεταβλητών, ιδιαίτερα όταν η μία τουλάχιστον από αυτές

είναι ποιοτική. Στο κεφάλαιο αυτό θα ασχοληθούμε με τη μέτρηση της συσχέτισης και τον υπολογισμό

Page 2: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

141

συντελεστών συσχέτισης, δίνοντας έμφαση στις ποσοτικές μεταβλητές. Για παράδειγμα, μπορεί να μας

ενδιαφέρει να εξετάσουμε αν η αξία των κατοικιών έχει σχέση με το εμβαδόν και την ηλικία τους. Και οι

τρεις αυτές μεταβλητές είναι ποσοτικές μεταβλητές, στην αναλογική κλίμακα μέτρησης. Στη συνέχεια μπορεί

να μας ενδιαφέρει να εξετάσουμε αν η αξία των κατοικιών μπορεί να ερμηνευτεί και να προβλεφθεί από το

εμβαδόν και την ηλικία τους, οπότε στην περίπτωση αυτή πρόκειται για ανάλυση παλινδρόμησης.

Παρά την έμφαση στις ποσοτικές μεταβλητές, θα παρουσιαστούν και ορισμένες μέθοδοι μέτρησης

της συσχέτισης ποιοτικών δεδομένων. Η Στατιστική μας επιτρέπει να διερευνήσουμε τα δεδομένα με πολλούς

διαφορετικούς τρόπους, επομένως τα μέτρα συσχέτισης ποιοτικών δεδομένων, που θα παρουσιαστούν σε

επόμενη ενότητα, μπορούν να χρησιμοποιηθούν εναλλακτικά ή συμπληρωματικά με τους πίνακες

διασταυρώσεων και τον έλεγχο Χ2, προκειμένου να αναλυθεί η σχέση μεταξύ δύο ποιοτικών μεταβλητών.

Η συσχέτιση και η παλινδρόμηση μελετούν τη σχέση μεταξύ δύο ή περισσότερων μεταβλητών. Η

απλή συσχέτιση και παλινδρόμηση αφορούν την περίπτωση όπου εξετάζονται ταυτοχρόνως μόνο δύο

μεταβλητές. Οι τεχνικές αυτές μπορούν όμως να επεκταθούν και για περισσότερες από δύο μεταβλητές και

στην περίπτωση αυτή εφαρμόζεται η πολλαπλή συσχέτιση ή παλινδρόμηση.

5.2 Ανάλυση συσχέτισης

Τα ερωτήματα για τη σχέση δύο μεταβλητών είναι πολύ συνηθισμένα και ενδιαφέροντα στην ερευνητική

διαδικασία. Μπορεί για παράδειγμα να θέλουμε να απαντήσουμε στο ερώτημα κατά πόσο η αξία των

ακινήτων έχει σχέση με την απόσταση από κεντρικές οδικές αρτηρίες ή αν το μέγεθος των αγροκτημάτων έχει

σχέση με την παραγωγικότητά τους ή αν η βαθμολογία στις εξετάσεις έχει σχέση με τις ώρες μελέτης. Με την

ανάλυση συσχέτισης (correlation analysis) μπορούμε να μετρήσουμε τον βαθμό συσχέτισης δύο μεταβλητών

και να προσδιορίσουμε την κατεύθυνση της μεταξύ τους σχέσης. Δηλαδή όσο αυξάνει η απόσταση από

κεντρικές οδικές αρτηρίες μπορεί να μειώνεται η αξία των κατοικιών, αυτή είναι μια αρνητική σχέση, ενώ

αντίθετα όσο αυξάνουν οι ώρες μελέτης αναμένουμε υψηλότερη βαθμολογία στις εξετάσεις. Η ανάλυση

συσχέτισης αφορά κατά κύριο λόγο ποσοτικές μεταβλητές, αλλά θα παρουσιαστούν και συντελεστές

συσχέτισης για ονομαστικές και ιεραρχικές μεταβλητές.

5.2.1 Συσχέτιση ποσοτικών μεταβλητών – Η έννοια της γραμμικής σχέσης

Για την περίπτωση των ποσοτικών μεταβλητών, ο όρος συσχέτιση αφορά τον βαθμό με τον οποίο δύο

μεταβλητές μεταβάλλονται ταυτοχρόνως (συμμεταβάλλονται) και προς ποια κατεύθυνση, με την προϋπόθεση

ότι η σχέση τους είναι γραμμική. Η γραμμική σχέση δύο μεταβλητών εκφράζεται γενικά από τη συνάρτηση

Y = a + bX, όπου X και Y είναι μεταβλητές και a, b σταθερές, οι παράμετροι της εξίσωσης. Στη γραμμική

σχέση για κάθε μεταβολή της μεταβλητής X κατά μία μονάδα, η μεταβλητή Y μεταβάλλεται κατά b. Σε

γεωμετρική απεικόνιση η σχέση αυτή παριστάνεται με μία ευθεία γραμμή.

Επειδή στην πραγματικότητα οι τιμές δύο μεταβλητών μπορεί να σχετίζονται με διαφορετικό τρόπο,

δηλαδή η σχέση να μην είναι γραμμική, πριν από τον ποσοτικό προσδιορισμό της σχέσης είναι απαραίτητο να

διερευνηθεί η ύπαρξη της γραμμικής σχέσης. Τα διαγράμματα διασποράς τα οποία παρουσιάστηκαν στην

ενότητα 3.4.2 αποτελούν το πρώτο βήμα για τη διερεύνηση της ύπαρξης γραμμικής σχέσης.

ΠΑΡΑΔΕΙΓΜΑ 5.1:Διαγράμματα διασποράς ή σκεδασμού

Στο Διάγραμμα 5.1 παρουσιάζεται το διάγραμμα διασποράς (και η γραμμή παλινδρόμησης) για τις

μεταβλητές ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και ΕΜΒΑΔΟΝ για ένα δείγμα 800 κατοικιών της Αττικής. Το σχήμα αυτό

εμφανίζει αρκετά ισχυρή γραμμική σχέση μεταξύ των δύο μεταβλητών, δηλαδή τα σημεία που παριστούν τις

παρατηρήσεις δείχνουν να βρίσκονται γύρω από μια ευθεία γραμμή. Όσο το διάγραμμα διασποράς πλησιάζει

την ευθεία γραμμή τόσο πιο ισχυρή είναι η γραμμική σχέση. Η σχέση είναι θετική, δηλαδή όσο μεγαλώνει το

εμβαδόν η αξία των κατοικιών είναι μεγαλύτερη.

Στο Διάγραμμα 5.2 παρουσιάζεται η σχέση πληθυσμού και απασχόλησης στη βιομηχανία για τους

νομούς της Ελλάδας με βάση τα δεδομένα του Πίνακα 1.1. Η σχέση αυτή εμφανίζει έντονη γραμμικότητα, η

οποία όμως επηρεάζεται από την ύπαρξη ακραίων (πολύ υψηλών τιμών) στους νομούς Αττικής και

Θεσσαλονίκης. Η σχέση αυτή είναι επίσης θετική.

Αντίθετα στο Διάγραμμα 5.3 παρουσιάζεται η σχέση μεταξύ των μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και

ΗΛΙΚΙΑ στο δείγμα των κατοικιών η οποία είναι ασθενής, αφού τα σημεία είναι αρκετά διασκορπισμένα, και

Page 3: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

142

έχει αρνητική κατεύθυνση, δηλαδή όσο αυξάνει η ηλικία των κατοικιών μειώνεται η αξία τους. Παρόλο που η

σχέση είναι ασθενής, εφόσον δεν παραπέμπει σε κάποια άλλη συναρτησιακή μορφή, θεωρείται ως γραμμική.

Ο αριθμός των σημείων στα διαγράμματα διασποράς είναι ίσος με τον αριθμό των παρατηρήσεων,

800 σημεία για τα διαγράμματα 5.1 και 5.3 και 51 σημεία για το Διάγραμμα 5.2, αλλά λόγω της κλίμακας της

σχεδίασης και της ύπαρξης ακραίων τιμών εμφανίζεται συγκέντρωση των παρατηρήσεων σε ορισμένες

περιοχές των διαγραμμάτων. Στο Διάγραμμα 5.1 η μεγαλύτερη συγκέντρωση σημείων είναι στην περιοχή του

διαγράμματος με αξία έως 500.000 ευρώ περίπου και εμβαδόν έως 150 τ.μ. Στο Διάγραμμα 5.2 αντίστοιχα η

μεγαλύτερη συγκέντρωση νομών είναι στην περιοχή του διαγράμματος με πληθυσμό περίπου έως 300.000

κατοίκους και απασχόληση στη βιομηχανία περίπου έως 18.000. Στο Διάγραμμα 5.3 η μεγαλύτερη

συγκέντρωση κατοικιών μπορεί να προσδιοριστεί στην περιοχή έως 500.000 ευρώ και έως 10 ετών.

Διάγραμμα 5.1 Διάγραμμα διασποράς με ισχυρή γραμμικότητα (θετική σχέση)

Διάγραμμα 5.2 Διάγραμμα διασποράς με πολύ ισχυρή γραμμικότητα και ακραίες τιμές (θετική σχέση)

Page 4: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

143

Διάγραμμα 5.3 Διάγραμμα διασποράς με ασθενή γραμμικότητα (αρνητική σχέση)

Η σειρά τοποθέτησης των μεταβλητών στους άξονες Χ και Υ δεν επηρεάζει τα αποτελέσματα για την

ανάλυση συσχέτισης. Όμως επειδή η ανάλυση συσχέτισης είναι συνυφασμένη με την ανάλυση

παλινδρόμησης, στον άξονα Υ τοποθετείται η μεταβλητή η οποία θεωρείται ότι μπορεί να επεξηγηθεί από τη

δεύτερη μεταβλητή. Για παράδειγμα η αξία των κατοικιών μπορεί να επεξηγηθεί από το εμβαδόν και την

ηλικία τους, οπότε στα Διαγράμματα 5.1 και 5.3, η μεταβλητή ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ τοποθετήθηκε στον άξονα

Υ. Στην περίπτωση των μεταβλητών ΠΛΗΘΥΣΜΟΣ 2011 και ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ ΒΙΟΜΗΧΑΝΙΑ 2011 δεν

είναι εύκολο να προσδιορίσουμε ποια μεταβλητή ερμηνεύει την άλλη. Στο Διάγραμμα 5.2 γίνεται η παραδοχή

ότι ο πληθυσμός είναι ο ερμηνευτικός παράγοντας για την απασχόληση στη βιομηχανία, και για τον λόγο

αυτό τοποθετείται στον άξονα Χ. Δηλαδή υποθέτουμε ότι νομοί με μεγάλο πληθυσμό προσελκύουν

βιομηχανική δραστηριότητα, πιθανά καταναλωτικού προσανατολισμού, οπότε αυξάνει ο αριθμός των

απασχολούμενων στη βιομηχανία. Όμως θα μπορούσαμε να ισχυριστούμε ότι η εγκατάσταση βιομηχανίας σε

έναν νομό προσελκύει πληθυσμό με αποτέλεσμα την αύξησή του, οπότε στην περίπτωση αυτή εξαρτημένη

μεταβλητή θα ήταν ο πληθυσμός. Το θέμα αυτό θα συζητηθεί παρακάτω στην ανάλυση παλινδρόμησης, όταν

θα πρέπει να οριστούν η εξαρτημένη και οι ανεξάρτητες μεταβλητές. Η εξαρτημένη μεταβλητή είναι αυτή

που θα ερμηνευτεί από μία ή περισσότερες μεταβλητές και στο διάγραμμα διασποράς τοποθετείται στον

άξονα Υ. Η ανεξάρτητη μεταβλητή τοποθετείται στον άξονα Χ. Σημειώνεται ότι στα διαγράμματα διασποράς

καταρχήν δεν μπορούμε να απεικονίσουμε περισσότερες από μία ανεξάρτητες μεταβλητές.

5.2.2 Μη γραμμικές σχέσεις

Στις γραμμικές σχέσεις η αύξηση κατά μία μονάδα της τιμής της μεταβλητής Χ έχει ως αποτέλεσμα την

αύξηση της μεταβλητής Υ κατά μία σταθερή ποσότητα. Συχνά όμως υπάρχει σχέση μεταξύ δύο μεταβλητών η

οποία δεν είναι γραμμική και μπορεί να παρασταθεί με μια καμπύλη. Και η σχέση αυτή μπορεί εύκολα να

διαπιστωθεί από τα διαγράμματα διασποράς, γι’ αυτό και η χρησιμότητά τους είναι πολύ μεγάλη στην

ανάλυση συσχέτισης και την ανάλυση παλινδρόμησης. Οι σχέσεις αυτές μπορεί να είναι εκθετικές,

λογαριθμικές, πολυώνυμα κ.ά. Από το διάγραμμα διασποράς πρέπει να διακρίνουμε ποια είναι η μορφή της

καμπύλης ώστε η σχέση που προκύπτει από το διάγραμμα διασποράς να μπορεί να εκφραστεί με μία

μαθηματική σχέση.

Στο Διάγραμμα 5.4 παρουσιάζεται μία κλασική καμπύλη στη Γεωγραφία η οποία δείχνει τη μείωση

της αλληλεπίδρασης μεταξύ δύο τόπων όσο η απόσταση μεγαλώνει (distance decay function). Για παράδειγμα

η μείωση των μετακινήσεων με την απόσταση σπανίως είναι γραμμική, αλλά παριστάνεται από μία καμπύλη

η οποία δείχνει γρήγορη μείωση στην αρχή και μικρότερη μείωση με την αύξηση της απόστασης. Από κάποια

απόσταση και μετά η αλληλεπίδραση τείνει ασυμπτωτικά προς το μηδέν. Τα ταξίδια, η επικοινωνία και η

Page 5: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

144

μετανάστευση σπανίως ακολουθούν γραμμικές σχέσεις (Abler, Adams, & Gould, 1971). Στο Διάγραμμα 5.4

θα μπορούσε για παράδειγμα η μεταβλητή Y να είναι ο αριθμός των ημερήσιων μετακινήσεων εργαζόμενων

από κάποιους δήμους προς ένα μεγάλο αστικό κέντρο, π.χ. την Αθήνα, και η μεταβλητή Χ η απόσταση κάθε

δήμου από το αστικό κέντρο. Είναι αναμενόμενο οι πλησιέστεροι δήμοι να έχουν περισσότερες μετακινήσεις,

ενώ μετά από κάποια απόσταση οι μετακινήσεις πλησιάζουν το μηδέν. Στο παράδειγμα της Αθήνας, η

επιρροή της με την έννοια των ημερήσιων μετακινήσεων για εργασία, μπορεί να φθάνει μέχρι την Κόρινθο

και τη Χαλκίδα1. Παρόμοια είναι η καμπύλη αν παραστήσουμε τη μείωση της πυκνότητας του πληθυσμού ή

των τιμών της γης με την απόσταση από το κέντρο της πόλης. Συνήθως οι καμπύλες αυτές προσεγγίζονται με

την αρνητική εκθετική καμπύλη της μορφής Υ=αe-bX

(Chen 2015· Halás, Klapka, & Kladivo 2014· Shaw &

Wheeler, 2000 ).

Ορισμένες από τις μη γραμμικές καμπύλες μπορούν να μετατραπούν σε γραμμικές για την ευκολία

των υπολογισμών. Στο SPSS διατίθενται αρκετές επιλογές για προσαρμογή καμπύλης στα δεδομένα και οι

δυνατότητες αυτές θα συζητηθούν στην ενότητα για την ανάλυση παλινδρόμησης.

Διάγραμμα 5.4 Αρνητική εκθετική καμπύλη: Η επίδραση της απόστασης στην αλληλεπίδραση

5.2.3 Ο συντελεστής συσχέτισης Pearson r

Ο συντελεστής συσχέτισης (correlation coefficient) Pearson r είναι ο σημαντικότερος συντελεστής

συσχέτισης και αφορά ποσοτικές μεταβλητές, ενώ βασίζεται στην έννοια της γραμμικής σχέσης η οποία

παρουσιάστηκε στην προηγούμενη ενότητα. Έχει πάρει το όνομά του από τον Άγγλο μαθηματικό Karl

Pearson.

5.2.3.1 Η έννοια της συνδιακύμανσης Για τον υπολογισμό του συντελεστή συσχέτισης Pearson r για δύο μεταβλητές Χ και Υ χρησιμοποιείται η

συνδιακύμανση (covariance) η οποία συμβολίζεται με ),cov( YX . Η συνδιακύμανση υπολογίζεται από τα

γινόμενα των αποκλίσεων των τιμών της μεταβλητής Χ από τον αριθμητικό μέσο της και των τιμών της

μεταβλητής Υ από τον αριθμητικό μέσο της για όλες τις παρατηρήσεις, δηλαδή:

1 Σε τέτοιου είδους αναλύσεις σπανίως η απόσταση είναι ευκλείδεια και παίζει ρόλο το μεταφορικό δίκτυο.

Page 6: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

145

Συνδιακύμανση 1

))((

),cov( 1

n

YyXx

YXi

n

i

i

όπου Χ και Υ είναι οι δύο μεταβλητές

Ο μαθηματικός τύπος της συνδιακύμανσης μπορεί να θεωρηθεί ως επέκταση του μαθηματικού τύπου

της διακύμανσης ή διασποράς (variance). Η διακύμανση αφορά μία και μόνη μεταβλητή, ενώ η

συνδιακύμανση περιγράφει πώς οι δύο μεταβλητές μεταβάλλονται ταυτοχρόνως. Ο μαθηματικός τύπος της

διακύμανσης μπορεί να αναλυθεί ως εξής:

Διακύμανση 1

)( 2

12

n

Xx

s

n

i

i

ή 1

))((12

n

XxXx

si

n

i

i

Αν στην παράσταση XxXx i

n

i

i 1

αντικατασταθεί ο ένας από τους δύο όρους με το όρο

Yyi αντιλαμβανόμαστε εμπειρικά πώς προκύπτει ο μαθηματικός τύπος της συνδιακύμανσης.

Η συνδιακύμανση μπορεί να είναι θετική ή αρνητική, ανάλογα με το αν οι τιμές της μίας μεταβλητής

αυξάνουν όταν και οι τιμές της δεύτερης αυξάνουν ή το αντίστροφο. Δηλαδή εφόσον υψηλές τιμές της Χ

τείνουν να συμβαδίζουν με υψηλές τιμές της Υ και χαμηλές τιμές της Χ με χαμηλές τιμές της Υ, η

συνδιακύμανση είναι θετική. Αντίθετα όταν χαμηλές τιμές της Χ συμβαδίζουν με υψηλές τιμές της Υ και οι

υψηλές τιμές της Χ με χαμηλές τιμές της Υ η συνδιακύμανση είναι αρνητική. Αυτές οι προϋποθέσεις δεν

ισχύουν συνήθως για το σύνολο των παρατηρήσεων, οπότε αν τα περισσότερα σημεία σε ένα διάγραμμα

διασποράς ακολουθούν μια ευθεία γραμμή με θετική κλίση, τότε η συνδιακύμανση είναι θετική και το

αντίστροφο. Η συνδιακύμανση πλησιάζει το μηδέν αν δεν υπάρχει γραμμική σχέση μεταξύ των δύο

μεταβλητών.

ΠΑΡΑΔΕΙΓΜΑ 5.2: Υπολογισμός συνδιακύμανσης

Στον Πίνακα 5.1 παρουσιάζεται τμήμα των δεδομένων για τις κατοικίες της Αττικής (Πίνακας 1.2).

Για 20 κατοικίες δίνεται η αξία της κατοικίας, η οποία είναι η μεταβλητή Υ και το εμβαδόν τους (μεταβλητή

Χ). Για τις δύο αυτές μεταβλητές έχει υπολογιστεί ο αριθμητικός μέσος και στις στήλες Yyi και Xxi

έχουν υπολογιστεί οι αποκλίσεις κάθε παρατήρησης από τον αριθμητικό μέσο για τις δύο μεταβλητές.

Εφόσον υπάρχει θετική σχέση μεταξύ των δύο μεταβλητών, όσο μεγαλώνει το εμβαδόν θα αυξάνει η αξία της

κατοικίας και το αντίστροφο. Θετικές αποκλίσεις αντιστοιχούν σε τιμές πάνω από τον αριθμητικό μέσο και

αρνητικές αποκλίσεις αντιστοιχούν σε τιμές κάτω από τον αριθμητικό μέσο. Εφόσον οι δύο μεταβλητές

συσχετίζονται θετικά, αν μία παρατήρηση έχει θετική απόκλιση για την αξία θα έχει θετική απόκλιση και για

το εμβαδόν, ενώ αρνητική απόκλιση για την αξία θα συνδέεται με αρνητική απόκλιση για το εμβαδόν, οπότε

και στις δύο περιπτώσεις, το γινόμενο των αποκλίσεων είναι θετικό. Επιπλέον, αν διατηρείται και η αναλογία

των αποκλίσεων, δηλαδή, αν για παράδειγμα, αξία δύο φορές πάνω από τον αριθμητικό μέσο της αξίας

συνδέεται με εμβαδόν επίσης δύο φορές πάνω από τον αριθμητικό μέσο του εμβαδού, η συσχέτιση είναι

τέλεια.

Στην πραγματικότητα, επειδή η συσχέτιση μεταξύ δύο μεταβλητών δεν είναι τέλεια, ούτε τα γινόμενα

των αποκλίσεων έχουν πάντα το ίδιο πρόσημο ούτε υπάρχει αναλογία των αποκλίσεων. Για παράδειγμα, σε

μια γενικά θετική σχέση, όπως αυτή της αξίας και του εμβαδού των κατοικιών, η θετική απόκλιση για τη μία

μεταβλητή μπορεί να συνδέεται με αρνητική απόκλιση για την άλλη μεταβλητή, οπότε το γινόμενο των

αποκλίσεων είναι αρνητικό. Στον Πίνακα 5.1 οι κατοικίες με αριθμό 8, 10, 13, 16 και 17 έχουν αρνητικό

γινόμενο αποκλίσεων. Ως προς την αναλογία των αποκλίσεων, αν παρατηρήσουμε την κατοικία με αριθμό 15

έχει σχεδόν διπλάσια αξία σε σχέση με τον αριθμητικό μέσο και το ίδιο ισχύει για το εμβαδόν της. Αντίθετα η

κατοικία με αριθμό 20 έχει χαμηλή αξία, περίπου στο 1/4 του αριθμητικού μέσου, αλλά το εμβαδόν είναι

αναλογικά μεγαλύτερο, στο ήμισυ του αριθμητικού μέσου. Αν το γινόμενο των αποκλίσεων είχε το ίδιο

πρόσημο για όλες τις παρατηρήσεις (θετικό στο συγκεκριμένο παράδειγμα) και επίσης υπήρχε η ίδια

αναλογία αποκλίσεων σε σχέση με τον αριθμητικό μέσο κάθε μεταβλητής, η συσχέτιση θα ήταν τέλεια.

Επειδή όμως υπάρχουν και άλλοι παράγοντες που επηρεάζουν την αξία των κατοικιών, εκτός από το

εμβαδόν, όπως η θέση, η ηλικία και ο όροφος, η συσχέτιση μεταξύ αξίας κατοικίας και εμβαδού δεν είναι

τέλεια.

Page 7: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

146

Πίνακας 5.1 Υπολογισμός συνδιακύμανσης2

5.2.3.2 Υπολογισμός του συντελεστή συσχέτισης Pearson 3

Το μέγεθος της συνδιακύμανσης εξαρτάται από τα μεγέθη των τιμών των μεταβλητών και τις μονάδες

μέτρησης, όπως είναι η περίπτωση και για την τυπική απόκλιση. Προκειμένου να οριστεί ένα μέτρο

συσχέτισης ανεξάρτητο μονάδων μέτρησης, η συνδιακύμανση διαιρείται με το γινόμενο των τυπικών

αποκλίσεων σx και σy. Με τον τρόπο αυτό προκύπτει ο συντελεστής συσχέτισης Pearson, ο οποίος δεν έχει

μονάδες μέτρησης και συμβολίζεται με το ελληνικό γράμμα ρ, όταν ο υπολογισμός γίνεται για τον στατιστικό

πληθυσμό, και με το λατινικό γράμμα r, όταν πρόκειται για δείγμα. Οπότε:

όπου cov (x,y) είναι η συνδιακύμανση και σx, σy είναι οι τυπικές αποκλίσεις των μεταβλητών X και Y.

και

n

i

n

i

ii

n

i

ii

YyXx

YyXx

r

1 1

22

1

2 Τυχόν διαφορές στα αποτελέσματα οφείλονται στη διατήρηση όλων των δεκαδικών ψηφίων κατά τον υπολογισμό

3 Η πλήρης ονομασία του συντελεστή συσχέτισης Pearson είναι Pearson product-moment correlation coefficient, όπου ο

όρος product αναφέρεται στα γινόμενα των αποκλίσεων και ο όρος moment στον αριθμητικό μέσο.

YX

YX

),cov(

Page 8: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

147

Υπάρχουν και εναλλακτικοί τύποι υπολογισμού του συντελεστή Pearson r (Wong & Lee, 2005), όπως:

n

i

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

ii

n

i

i

yynxxn

yxyxn

r

1

2

1

2

2

11

2

111

Ο συντελεστής συσχέτισης Pearson r δεν έχει μονάδες μέτρησης και λαμβάνει τιμές στο διάστημα [-

1,+1]. Επομένως για κάθε ζεύγος μεταβλητών, η τιμή του συντελεστή συσχέτισης θα είναι 11 r .

Συντελεστής r = -1 ή r = 1 σημαίνει ότι υπάρχει τέλεια γραμμική συσχέτιση μεταξύ των δύο μεταβλητών και

τα σημεία που ορίζονται από τα ζεύγη των τιμών τους στο διάγραμμα διασποράς βρίσκονται κατά μήκος μιας

ευθείας γραμμής. Η τιμή r=0 αντιστοιχεί σε ένα νέφος σημείων τα οποία είναι ασυσχέτιστα. Θετικός

συντελεστής συσχέτισης σημαίνει ότι οι δύο μεταβλητές είναι θετικά συσχετιζόμενες και οι τιμές τους

μεταβάλλονται προς την ίδια κατεύθυνση, δηλαδή όταν μεγαλώνουν οι τιμές της μίας μεταβλητής

μεγαλώνουν και οι τιμές της άλλης μεταβλητής και το αντίστροφο. Αρνητικός συντελεστής συσχέτισης

σημαίνει αρνητική σχέση μεταξύ δύο μεταβλητών, δηλαδή όταν αυξάνουν οι τιμές της μίας μεταβλητής

μειώνονται οι τιμές της άλλης. Η μηδενική συσχέτιση σημαίνει ότι δεν υπάρχει γραμμική σχέση μεταξύ των

δύο μεταβλητών. Στην περίπτωση αυτή, θα μπορούσε να υπάρχει σχέση μεταξύ των δύο μεταβλητών, η οποία

όμως δεν είναι γραμμική και για τον λόγο αυτό καταλήγει σε συντελεστή συσχέτισης Pearson r = 0 (βλ.

Διάγραμμα 5.6). Εκτός των χαρακτηριστικών τιμών του συντελεστή συσχέτισης, δηλαδή των r = ±1 και r = 0,

οι υπόλοιπες τιμές στο διάστημα [-1,+1] ερμηνεύονται με εμπειρικό τρόπο. Τιμές κοντά στη μονάδα, συνήθως

μεγαλύτερες του 0,80, θετικές ή αρνητικές ερμηνεύονται ως σχεδόν τέλεια ή πολύ ισχυρή συσχέτιση. Τιμές

κοντά στο 0,5 μπορεί να ερμηνευτούν ως μέτρια συσχέτιση, ενώ τιμές κοντά στο μηδέν ως ασθενής

συσχέτιση ή απουσία συσχέτισης. Πρέπει να σημειωθεί, ότι ανάλογα με το αντικείμενο της μελέτης, η

ερμηνεία του μεγέθους των συντελεστών συσχέτισης μπορεί να διαφέρει.

Στο Διάγραμμα 5.5 παρουσιάζονται υποθετικά διαγράμματα διασποράς στα οποία εμφανίζονται οι

χαρακτηριστικές τιμές του συντελεστή συσχέτισης Pearson:

r = 1 (τέλεια θετική συσχέτιση),

r = -1 (τέλεια αρνητική συσχέτιση),

r = 0 (απουσία συσχέτισης).

ΠΑΡΑΔΕΙΓΜΑ 5.3: Υπολογισμός συντελεστή συσχέτισης Pearson Στον Πίνακα 5.2 φαίνεται ο υπολογισμός του συντελεστή συσχέτισης Pearson για τα δεδομένα του

Πίνακα 5.1. Ο υπολογισμός του συντελεστή Pearson γίνεται μέσω προγραμμάτων Η/Υ, όπως το Excel

(συνάρτηση PEARSON) και το SPSS. Στα λογισμικά στατιστικής ανάλυσης είναι δυνατός ο υπολογισμός του

r για πολλά ζεύγη μεταβλητών ταυτόχρονα και η διαδικασία αυτή είναι σημαντική για να προχωρήσουμε

στην ανάλυση παλινδρόμησης.

Διάγραμμα 5.5 Διαγράμματα σκεδασμού και συντελεστές συσχέτισης

Page 9: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

148

754,0

2151707376480000

30022400

1

2

1

2

1

n

i

i

n

i

i

n

i

ii

YyXx

YyXx

r

Πίνακας 5.2 Υπολογισμός συντελεστή συσχέτισης Pearson r

Στον Πίνακα 5.3 φαίνονται τα αποτελέσματα υπολογισμού του συντελεστή συσχέτισης Pearson για

πολλά ζεύγη μεταβλητών, όπως προκύπτουν από το λογισμικό SPSS για την επεξεργασία των δεδομένων των

800 κατοικιών, τμήμα των οποίων φαίνεται στον Πίνακα 1.2. Σε κάθε φατνίο εμφανίζονται τρεις γραμμές.

Στην πρώτη γραμμή εμφανίζεται ο συντελεστής συσχέτισης Pearson r και στη δεύτερη τα αποτελέσματα του

στατιστικού ελέγχου t, ο οποίος εξηγείται στην επόμενη ενότητα. Στην τρίτη γραμμή κάθε φατνίου

εμφανίζεται το πλήθος των παρατηρήσεων. Ο πίνακας των συντελεστών συσχέτισης είναι συμμετρικός πάνω

και κάτω από τη διαγώνιο, δηλαδή οι τιμές των συντελεστών συσχέτισης εμφανίζονται δύο φορές, επειδή δεν

έχει σημασία η σειρά των μεταβλητών στον υπολογισμό του Pearson. Η διαγώνιος αποτελείται από μονάδες,

επειδή κάθε μεταβλητή συσχετίζεται με το εαυτό της και η συσχέτιση είναι τέλεια, αλλά χωρίς πρακτική

σημασία. Η υψηλότερη συσχέτιση μεταξύ των μεταβλητών του Πίνακα 5.3 παρατηρείται μεταξύ των

μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και ΕΜΒΑΔΟΝ. Ο συντελεστής συσχέτισης για τις μεταβλητές αυτές είναι

0,872 και η συσχέτιση είναι θετική και ισχυρή4. Ο συντελεστής συσχέτισης για τις μεταβλητές ΑΞΙΑ

ΚΑΤΟΙΚΙΑΣ και ΗΛΙΚΙΑ είναι -0,349. Στην περίπτωση αυτή το αρνητικό πρόσημο σημαίνει ότι όσο αυξάνει

η ηλικία της κατοικίας η αξία της μειώνεται, όμως το μέγεθος της συσχέτισης (0,349) υποδηλώνει μάλλον

ασθενή σχέση μεταξύ των δύο μεταβλητών. Πρέπει να σημειωθεί ότι η θέση των κατοικιών, δηλαδή ο δήμος

στον οποίο ανήκουν δεν είναι δυνατό να εμφανιστεί στον πίνακα των συσχετίσεων, επειδή πρόκειται για

4 Το αποτέλεσμα είναι διαφορετικό από αυτό του Πίνακα 5.2 επειδή το δείγμα είναι διαφορετικό.

Page 10: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

149

μεταβλητή στην ονομαστική κλίμακα μέτρησης. Το θέμα αυτό θα αντιμετωπιστεί παρακάτω στην ανάλυση

παλινδρόμησης.

Στον Πίνακα 5.4 φαίνεται ο πίνακας των συντελεστών συσχέτισης για τα δεδομένα του Πίνακα 1.1

για τους 51 νομούς της Ελλάδας (βλ. και video 5.1). Στον πίνακα αυτό οι παρατηρήσεις είναι γεωγραφικές

ενότητες, οι νομοί, και μπορούν να εξαχθούν άμεσα συμπεράσματα γεωγραφικού ενδιαφέροντος, σε αντίθεση

με τα δεδομένα των κατοικιών. Παρατηρούμε για παράδειγμα πολύ υψηλούς συντελεστές συσχέτισης μεταξύ

των μεταβλητών ΠΛΗΘΥΣΜΟΣ 2011, ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ ΒΙΟΜΗΧΑΝΙΑ 2011, ΑΚΑΘΑΡΙΣΤΟ ΕΓΧΩΡΙΟ

ΠΡΟΪΟΝ 2011 και ΟΙΚΟΔΟΜΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ 2011, δηλαδή οι νομοί με μεγάλο πληθυσμιακό

μέγεθος συνήθως έχουν υψηλή απασχόληση στη βιομηχανία, υψηλό ΑΕΠ και μεγάλη οικοδομική

δραστηριότητα. Τα συμπεράσματα αυτά είναι αναμενόμενα αν λάβουμε υπόψη ότι νομοί με μεγάλο

πληθυσμό περιλαμβάνουν μεγάλα αστικά κέντρα, ενώ στη βιβλιογραφία είναι τεκμηριωμένη η σχέση

αστικοποίησης, εκβιομηχάνισης και υψηλών εισοδημάτων. Η οικοδομική δραστηριότητα είναι επίσης

αναμενόμενο να ακολουθεί την κατανομή του πληθυσμού. Αντίθετα η απασχόληση στη γεωργία αναφέρεται

στον αγροτικό χώρο ο οποίος είναι αραιοκατοικημένος και δεν χαρακτηρίζεται από βιομηχανική

δραστηριότητα, ενώ τα εισοδήματα είναι χαμηλότερα, οπότε οι συντελεστές συσχέτισης της μεταβλητής

ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ ΓΕΩΡΓΙΑ 2011 με τις υπόλοιπες μεταβλητές εκφράζουν μέτρια προς ασθενή σχέση.

Πρέπει όμως να σημειωθεί, ότι δεν είναι εύκολο να διατυπωθεί μια ερευνητική υπόθεση για το αίτιο

και το αιτιατό μόνο από την παρατήρηση των συντελεστών συσχέτισης. Ενώ δηλαδή είναι λογικό να

υποθέσουμε ότι η μεγάλη οικοδομική δραστηριότητα αποτελεί αποτέλεσμα του μεγάλου πληθυσμιακού

μεγέθους, για τη σχέση πληθυσμού και βιομηχανικής δραστηριότητας δεν είναι εύκολο να γίνει μια ανάλογη

διατύπωση χωρίς βαθύτερη γνώση των πόλεων και της οικονομίας τους. Στη θεωρία της οικονομικής

ανάπτυξης οι μεγάλες πόλεις έλκουν οικονομική δραστηριότητα, αλλά επίσης η εγκατάσταση μεγάλων

παραγωγικών μονάδων προσελκύει πληθυσμό. Οι σχέσεις αιτίου και αιτιατού θα συζητηθούν αναλυτικότερα

στην ενότητα 5.3 που αφορά την ανάλυση παλινδρόμησης.

5.2.3.3 Επαγωγικοί έλεγχοι για τον συντελεστή συσχέτισης Pearson Όπως αναφέρθηκε προηγουμένως, ο συντελεστής συσχέτισης Pearson r αναφέρεται σε δεδομένα από

δειγματοληψία και ο αντίστοιχος συντελεστής συσχέτισης για τον πληθυσμό συμβολίζεται με ρ. Κατά τον

υπολογισμό του r από λογισμικά στατιστικής ανάλυσης, γίνεται στατιστικός έλεγχος για τον συντελεστή ρ. Η

μηδενική υπόθεση συνήθως είναι ότι δεν υπάρχει σχέση μεταξύ των δύο μεταβλητών οπότε ρ=0. Ο έλεγχος

της υπόθεσης αυτής γίνεται με παρόμοιο τρόπο, όπως στους ελέγχους υποθέσεων που έχουν αναφερθεί στο

Κεφάλαιο 4. Το κριτήριο το οποίο χρησιμοποιείται είναι το κριτήριο t το οποίο ισούται με:

21

2

r

nrt

όπου r είναι ο συντελεστής συσχέτισης Pearson που υπολογίζεται από το δείγμα.

Η κατανομή του κριτηρίου αυτού ακολουθεί την κατανομή t με n-2 βαθμούς ελευθερίας. Εφόσον η

τιμή του κριτηρίου t αντιστοιχεί σε πιθανότητα μικρότερη από το επίπεδο σημαντικότητας, δηλαδή p<0,05 ή

p<0,01, τότε μπορεί να απορριφθεί η μηδενική υπόθεση ότι ρ=0. Για τη γενικότερη περίπτωση ελέγχου, ως

προς οποιαδήποτε αριθμητική τιμή του ρ, ακολουθείται διαφορετική διαδικασία ελέγχου με βάση την

κανονική κατανομή (Κίτσος, 1991).

Στα λογισμικά στατιστικής ανάλυσης ο υπολογισμός του στατιστικού ελέγχου γίνεται αυτόματα. Στον

Πίνακα 5.3 με τα αποτελέσματα του SPSS, ο έλεγχος t φαίνεται στη δεύτερη σειρά κάθε φατνίου με τον όρο

Sig., δηλαδή significance ή σημαντικότητα. Υπάρχει επίσης στο ίδιο σημείο των αποτελεσμάτων και η

ένδειξη 2-tailed, ότι δηλαδή ο έλεγχος είναι αμφίπλευρος. Εφόσον η τιμή που βρίσκεται στη γραμμή Sig.

είναι μικρότερη από 0,05, τότε μπορούμε να απορρίψουμε τη μηδενική υπόθεση ότι ρ=0. Συνήθως τιμές

μεγαλύτερες του 0,05 εμφανίζονται σε ζεύγη μεταβλητών με ασθενή συσχέτιση.

Page 11: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

150

Correlations

ΑΞΙΑ

ΚΑΤΟΙΚΙΑΣ ΕΜΒΑΔΟΝ ΟΡΟΦΟΣ

ΑΡΙΘΜΟΣ

ΥΠΝΟΔΩΜΑΤΙΩΝ ΗΛΙΚΙΑ ΑΞΙΑ ΑΝΑ τμ

ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ Pearson Correlation 1 ,872** -,027 ,637** -,349** ,733**

Sig, (2-tailed) ,000 ,482 ,000 ,000 ,000

N 800 800 800 800 800 800

ΕΜΒΑΔΟΝ Pearson Correlation ,872** 1 -,073 ,731** -,249** ,374**

Sig. (2-tailed) ,000 ,059 ,000 ,000 ,000

N 800 800 800 800 800 800

ΟΡΟΦΟΣ Pearson Correlation -,027 -,073 1 -,021 -,115** ,074

Sig. (2-tailed) ,482 ,059 ,595 ,003 ,057

N 800 800 800 800 800 800

ΑΡΙΘΜΟΣ

ΥΠΝΟΔΩΜΑΤΙΩΝ

Pearson Correlation ,637** ,731** -,021 1 -,290** ,325**

Sig. (2-tailed) ,000 ,000 ,595 ,000 ,000

N 800 800 800 800 800 800

ΗΛΙΚΙΑ Pearson Correlation -,349** -,249** -,115** -,290** 1 -,472**

Sig. (2-tailed) ,000 ,000 ,003 ,000 ,000

N 800 800 800 800 800 800

ΑΞΙΑ ΑΝΑ τμ Pearson Correlation ,733** ,374** ,074 ,325** -,472** 1

Sig. (2-tailed) ,000 ,000 ,057 ,000 ,000

N 800 800 800 800 800 800

**, Correlation is significant at the 0,01 level (2-tailed),

Πίνακας 5.3 Πίνακας συντελεστών συσχέτισης Pearson r (SPSS): 800 κατοικίες

Correlations

ΠΛΗΘΥΣΜΟΣ 2011

ΑΠΑΣΧΟΛΗΣΗ

ΣΤΗ ΓΕΩΡΓΙΑ 2011

ΑΠΑΣΧΟΛΗΣΗ

ΣΤΗ

ΒΙΟΜΗΧΑΝΙΑ 2011

ΑΚΑΘΑΡΙΣΤΟ

ΕΓΧΩΡΙΟ ΠΡΟΪΟΝ 2011

ΟΙΚΟΔΟΜΙΚΗ

ΔΡΑΣΤΗΡΙΟΤΗΤΑ 2011

ΠΛΗΘΥΣΜΟΣ 2011 Pearson Correlation 1 ,418** ,999** ,994** ,974**

Sig. (2-tailed) ,002 ,000 ,000 ,000

N 51 51 51 51 51

ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ

ΓΕΩΡΓΙΑ 2011

Pearson Correlation ,418** 1 ,396** ,369** ,441**

Sig. (2-tailed) ,002 ,004 ,008 ,001

N 51 51 51 51 51

ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ

ΒΙΟΜΗΧΑΝΙΑ 2011

Pearson Correlation ,999** ,396** 1 ,994** ,976**

Sig. (2-tailed) ,000 ,004 ,000 ,000

N 51 51 51 51 51

ΑΚΑΘΑΡΙΣΤΟ ΕΓΧΩΡΙΟ

ΠΡΟΪΟΝ 2011

Pearson Correlation ,994** ,369** ,994** 1 ,962**

Sig. (2-tailed) ,000 ,008 ,000 ,000

N 51 51 51 51 51

ΟΙΚΟΔΟΜΙΚΗ

ΔΡΑΣΤΗΡΙΟΤΗΤΑ 2011

Pearson Correlation ,974** ,441** ,976** ,962** 1

Sig. (2-tailed) ,000 ,001 ,000 ,000

N 51 51 51 51 51

**, Correlation is significant at the 0,01 level (2-tailed),

Πίνακας 5.4 Πίνακας συντελεστών συσχέτισης Pearson r (SPSS): Νομοί

Page 12: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

151

5.2.3.4 Προϋποθέσεις και προβλήματα στην εφαρμογή του συντελεστή συσχέτισης Pearson

Οι έλεγχοι σημαντικότητας του συντελεστή συσχέτισης Pearson r που αναφέρθηκαν στην προηγούμενη

ενότητα προϋποθέτουν την κανονικότητα των κατανομών των δύο μεταβλητών Χ και Υ (Γναρδέλλης, 2003).

Επίσης είναι πολύ σημαντικό να διαπιστώνεται η ύπαρξη της γραμμικής σχέσης. Μια σχέση όπως αυτή που

παρουσιάζεται στο Διάγραμμα 5.6 δεν είναι σε ευθεία γραμμή και θα προκύψει συντελεστής συσχέτισης

κοντά στο μηδέν, παρόλο που υπάρχει σχέση μεταξύ των δύο μεταβλητών. Η σχέση χαρακτηρίζεται ως

καμπυλόγραμμη5. Παράδειγμα μιας τέτοιας σχέσης είναι η σχέση της θερμοκρασίας με τους μήνες του

χρόνου ή το άλμα εις μήκος ανάλογα με την ηλικία. Στα παραδείγματα αυτά, η αύξηση της μεταβλητής Χ

συνεπάγεται αρχικά γρήγορη αύξηση της μεταβλητής Υ αλλά στη συνέχεια επέρχεται μείωση της Υ. Δηλαδή

τους πρώτους μήνες του χρόνου η θερμοκρασία είναι χαμηλή και αυξάνει μέχρι το καλοκαίρι και στη

συνέχεια μειώνεται ή τα παιδιά δεν μπορούν να έχουν μεγάλο άλμα εις μήκος, αλλά στις νεαρές ηλικίες το

άλμα μεγαλώνει για να μειωθεί στις μεγαλύτερες ηλικίες. Επομένως υπάρχει σαφώς σχέση μεταξύ των

μεταβλητών αλλά δεν είναι σε ευθεία γραμμή, δηλαδή η μεταβλητή Υ δεν αυξάνεται (ή μειώνεται) συνεχώς

και με την ίδια αναλογία όταν αυξάνεται η μεταβλητή Χ. Τα διαγράμματα διασποράς της μορφής του

Διαγράμματος 5.6 προσεγγίζονται από ένα πολυώνυμο δεύτερου βαθμού της μορφής Υ=a+b1X-b2X2

(Αποστολόπουλος, 2003).

Όταν υπάρχουν ακραίες τιμές στις δύο μεταβλητές ή υπάρχουν ζεύγη παρατηρήσεων των οποίων οι

τιμές διαφοροποιούνται πολύ από τις υπόλοιπες, οι τιμές ονομάζονται απομονωμένες ή απομακρυσμένες

τιμές (outliers) στο διάγραμμα διασποράς (βλ. ενότητα 3.5.2). Στις περιπτώσεις αυτές ο συντελεστής

συσχέτισης μπορεί να δώσει παραπλανητικά αποτελέσματα και ίσως είναι σκόπιμο να ελεγχθεί χωρίς τις

ακραίες ή τις απομονωμένες τιμές.

Ο υπολογισμός ενός ισχυρού συντελεστή συσχέτισης Pearson δεν συνεπάγεται οπωσδήποτε την

ύπαρξη σχέσης μεταξύ δύο μεταβλητών. Γενικά πολύ ισχυροί συντελεστές συσχέτισης πρέπει να

διερευνώνται. Έχουν παρουσιαστεί παραδείγματα ισχυρής συσχέτισης μεταξύ μεταβλητών οι οποίες δεν

έχουν προφανή σχέση. Για παράδειγμα έχει βρεθεί ισχυρή συσχέτιση μεταξύ των ανεμοστρόβιλων στις ΗΠΑ

και της κυκλοφορίας των αυτοκινήτων ή ότι η παραγωγή άνθρακα στη Μ. Βρετανία συνδέεται με τον θάνατο

των πιγκουίνων στην Ανταρκτική (Rogerson, 2006). Είναι προφανές ότι δεν μπορεί να υποστηριχθεί η

ύπαρξη σχέσης μεταξύ των φαινομένων αυτών, αλλά απλά συμβαίνει ότι τα μεγέθη μεταβάλλονται με τον

ίδιο τρόπο.

Παρόμοια είναι η περίπτωση όπου δύο μεταβλητές εμφανίζουν ισχυρή συσχέτιση επειδή έχουν

ισχυρή συσχέτιση ως προς μια τρίτη μεταβλητή. Αυτές οι περιπτώσεις αναφέρονται ως νόθα συσχέτιση

(spurious correlation). Μπορεί για παράδειγμα να συσχετίσουμε το αριθμό των μπαρ και το επίπεδο της

εκπαίδευσης σε κάποιες περιοχές και η συσχέτιση να βρεθεί θετική και υψηλή. Αυτό δεν σημαίνει

απαραίτητα ότι η κατανάλωση αλκοόλ έχει σχέση με το υψηλό μορφωτικό επίπεδο του πληθυσμού. Αλλά

μπορεί να σημαίνει ότι σε περιοχές με πανεπιστήμια υπάρχει και μεγάλος αριθμός μπαρ, πιθανά μεγαλύτερος

σε σχέση με περιοχές χωρίς πανεπιστήμια. Με την ολοένα αυξανόμενη διαθεσιμότητα ψηφιακών δεδομένων

είναι περισσότερο πιθανό να βρίσκονται συσχετίσεις οι οποίες δεν ανταποκρίνονται σε πραγματικές σχέσεις

μεταξύ των φαινομένων (Steinberg & Steinberg, 2006).

Άλλη περίπτωση που χρήζει προσοχής είναι ισχυρή συσχέτιση η οποία οφείλεται στην εμπλοκή της

μίας μεταβλητής στον υπολογισμό της δεύτερης. Για παράδειγμα δεν είναι σκόπιμο να συσχετίσουμε την αξία

των κατοικιών με την αξία ανά τ.μ. επειδή η αξία ανά τ.μ. υπολογίζεται διαιρώντας την αξία με το εμβαδόν

και υπάρχει ένας πλεονασμός στην πληροφορία.

Τέλος, στην ανάλυση συσχέτισης για γεωγραφικά δεδομένα, έχει ιδιαίτερη σημασία το πρόβλημα της

κλίμακας και της ομαδοποίησης των δεδομένων σε μεγαλύτερες γεωγραφικές ενότητες (βλ. ενότητα 1.4,

Modifiable Areal Unit Problem (MAUP). Είναι πολύ παλαιά διαπίστωση στη Γεωγραφική Ανάλυση ότι οι

συντελεστές συσχέτισης αυξάνουν, όσο τα δεδομένα ομαδοποιούνται σε μεγαλύτερες γεωγραφικές ενότητες

(Haining, 2004· Rogerson, 2006). Δηλαδή αν συσχετίσουμε δύο μεταβλητές π.χ. σε επίπεδο δήμου, οι ίδιες

μεταβλητές σε επίπεδο νομού αναμένεται να έχουν μεγαλύτερο συντελεστή συσχέτισης. Επομένως στα

γεωγραφικά προβλήματα έχει σημασία ο αριθμός και το μέγεθος των χωρικών μονάδων ανάλυσης και πρέπει

να έχουμε υπόψη ότι σχέσεις οι οποίες διαπιστώνονται σε ένα επίπεδο ανάλυσης δεν ισχύουν απαραίτητα σε

ένα άλλο επίπεδο ανάλυσης.

5 Συχνά στη βιβλιογραφία οι καμπυλόγραμμες σχέσεις αναφέρονται ως μη γραμμικές (non linear)

Page 13: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

152

Διάγραμμα 5.6. Καμπυλόγραμμη σχέση (πολυώνυμο)

5.2.3.5 Πολλαπλή συσχέτιση-Μερική συσχέτιση

Ο συντελεστής συσχέτισης Pearson ονομάζεται απλός όταν αφορά δύο μεταβλητές. Μπορεί να υπολογιστεί

και για περισσότερες από δύο μεταβλητές, οπότε ονομάζεται πολλαπλός ή συντελεστής πολλαπλής

συσχέτισης και συμβολίζεται με R. Στο παράδειγμα των 800 κατοικιών, θα μπορούσαμε για παράδειγμα να

υπολογίσουμε τον συντελεστή συσχέτισης για την αξία, το εμβαδόν και την ηλικία των κατοικιών

ταυτοχρόνως.

Εάν, στην ανάλυση πολλαπλής συσχέτισης, θέλουμε να μετρήσουμε τη σχέση μεταξύ δύο ή

περισσότερων μεταβλητών κρατώντας σταθερή μία άλλη μεταβλητή, υπολογίζουμε τον συντελεστή μερικής

συσχέτισης. Αυτή η διαδικασία προσεγγίζει την εκτέλεση πειραμάτων στις φυσικές και τις κοινωνικές

επιστήμες. Θα μπορούσαμε για παράδειγμα να υπολογίσουμε τον συντελεστή Pearson για την αξία και το

εμβαδόν των κατοικιών κρατώντας σταθερή την ηλικία και με τον τρόπο αυτό να εξετάσουμε την επίδραση

του εμβαδού στην αξία, αφού έχει αφαιρεθεί η επίδραση της ηλικίας.

Τόσο η πολλαπλή όσο και η μερική συσχέτιση έχουν σημαντικές εφαρμογές στην ανάλυση

παλινδρόμησης.

5.2.4 Ο συντελεστής συσχέτισης Spearman rs

Ο συντελεστής Pearson r μπορεί να εφαρμοστεί μόνο για ποσοτικές μεταβλητές. Στην περίπτωση ιεραρχικών

μεταβλητών χρησιμοποιείται ο συντελεστής Spearman rs. Ο συντελεστής αυτός εφαρμόζεται επίσης σε

ποσοτικές μεταβλητές, όταν δεν ισχύει η προϋπόθεση της κανονικότητας των δύο μεταβλητών Χ και Υ, καθώς

επίσης και σε περιπτώσεις ύπαρξης ακραίων τιμών (Γναρδέλλης, 2003). Ο συντελεστής Spearman ανήκει

στους μη παραμετρικούς ελέγχους, οι οποίοι δεν χρησιμοποιούν εκτίμηση κάποιας παραμέτρου, όπως ο

αριθμητικός μέσος και η τυπική απόκλιση, και δεν προϋποθέτουν γνώση της μορφής της κατανομής του

πληθυσμού από τον οποίο έχουν προέλθει τα δεδομένα (για παράδειγμα από έναν κανονικό πληθυσμό).

Επίσης για τους υπολογισμούς δεν χρησιμοποιούνται οι τιμές των μεταβλητών, αλλά οι τάξεις μεγέθους τους.

Ο συντελεστής συσχέτισης Spearman rs προκύπτει από δύο μεταβλητές Χ και Υ για τις οποίες γίνεται

ταξινόμηση των παρατηρήσεων κατά αύξουσα ή φθίνουσα τάξη. Αν η συσχέτιση είναι τέλεια, οι

παρατηρήσεις έχουν την ίδια κατάταξη και για τις δύο μεταβλητές. Συνήθως όμως παρατηρούνται διαφορές

στην κατάταξη, δηλαδή μια παρατήρηση i μπορεί να έχει την υψηλότερη τιμή για τη μία μεταβλητή και την

Page 14: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

153

τρίτη υψηλότερη για την άλλη. Οι διαφορές αυτές συμβολίζονται με di και στην προηγούμενη περίπτωση di

=3-1=2. Ο συντελεστής συσχέτισης Spearman rs υπολογίζεται ως εξής:

όπου

n το πλήθος των παρατηρήσεων του δείγματος

di είναι η διαφορά των σχετικών ή διατεταγμένων θέσεων των τιμών xi και yi μιας παρατήρησης i

Όπως και ο συντελεστής συσχέτισης Pearson r, έτσι και ο συντελεστής συσχέτισης Spearman rs

λαμβάνει τιμές στο διάστημα [-1,+1]. Τιμές του συντελεστή συσχέτισης κοντά στο 1 ή το -1 υποδηλώνουν

ισχυρή συσχέτιση θετική ή αρνητική, ενώ τιμές κοντά στο μηδέν υποδηλώνουν απουσία συσχέτισης.

ΠΑΡΑΔΕΙΓΜΑ 5.4: Υπολογισμός συντελεστή συσχέτισης Spearman

Στον Πίνακα 5.5 ακολουθεί ο υπολογισμός του συντελεστή συσχέτισης Spearman για τα δεδομένα

του Πίνακα 5.1, θα υπολογιστεί δηλαδή η συσχέτιση για τις μεταβλητές ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και ΕΜΒΑΔΟΝ.

Προηγείται η εύρεση της σχετικής θέσης των κατοικιών ως προς την αξία και ως προς το εμβαδόν, κατά

αύξουσα τάξη. Η κατάταξη κάθε κατοικίας φαίνεται στις στήλες ΣΧΕΤΙΚΗ ΘΕΣΗ ΩΣ ΠΡΟΣ Υ και ΣΧΕΤΙΚΗ

ΘΕΣΗ ΩΣ ΠΡΟΣ Χ. Για παράδειγμα στη στήλη ΣΧΕΤΙΚΗ ΘΕΣΗ ΩΣ ΠΡΟΣ Υ η φθηνότερη κατοικία έχει

τον αριθμό 1 και είναι η κατοικία με αύξοντα αριθμό 20 και αξία 33.000 ευρώ. Η ακριβότερη κατοικία είναι η

κατοικία με αύξοντα αριθμό 15 και αξία 240.000 ευρώ και είναι 20η στην κατάταξη. Ο συντελεστής

συσχέτισης Spearman προκύπτει rs=0,758, τιμή η οποία έχει πολύ μικρή διαφορά από τον συντελεστή

συσχέτισης Pearson r που υπολογίστηκε για τα ίδια δεδομένα στον Πίνακα 5.2 (r = 0,754). Συνήθως οι τιμές

του Pearson και του Spearman δεν διαφέρουν πολύ.

Όταν επαναλαμβάνεται η ίδια τιμή στα δεδομένα, η σχετική θέση είναι η μέση τιμή των αρχικών

θέσεων, για παράδειγμα αν προσθέσουμε στα δεδομένα του Πίνακα 5.5 μία 21η κατοικία με τιμή 33000,

αρχικά δίνεται η 1η και 2

η θέση στις κατοικίες με αριθμό 20 και 21 και στη συνέχεια γίνεται αντικατάσταση

με τη θέση 1,5 και για τις δύο. Σε τέτοιες περιπτώσεις παρουσιάζονται κενά στην κατάταξη, στο

συγκεκριμένο παράδειγμα θα λείπουν οι θέσεις 1 και 2. Επίσης ο μαθηματικός τύπος υπολογισμού του

συντελεστή συσχέτισης Spearman γίνεται πιο σύνθετος (Δαμιανού, Παπαδάτος, & Χαραλαμπίδης, 2010).

Ο ίδιος τρόπος υπολογισμού του συντελεστή συσχέτισης Spearman μπορεί να εφαρμοστεί σε

δεδομένα που είναι μετρημένα στην ιεραρχική κλίμακα. Στην περίπτωση αυτή ο συντελεστής έχει μεγάλη

χρησιμότητα επειδή οι δυνατότητες ανάλυσης ποιοτικών δεδομένων είναι περιορισμένες. Στον Πίνακα 5.6

παρουσιάζονται δεδομένα για την αξία και το εμβαδόν των κατοικιών (πρόκειται για τις κατοικίες του Πίνακα

5.5) ταξινομημένα σε τρεις ομάδες τιμών για κάθε μεταβλητή (ιεραρχική κλίμακα μέτρησης). Στην

περίπτωση αυτή μόνο ο συντελεστής Spearman μπορεί να υπολογιστεί, και όχι ο Pearson. Αν τα φθηνότερα

ακίνητα (έως 100000 ευρώ) αντιστοιχούσαν πάντα στην ομάδα των μικρότερων ακινήτων (<60) και το ίδιο

ίσχυε και για τις υπόλοιπες ομάδες, δηλαδή η ομάδα αξίας 100001-200000 αντιστοιχούσε στην ομάδα

εμβαδού 60-90 και η ομάδα αξίας >200000 αντιστοιχούσε στην ομάδα εμβαδού >90 τα μεγέθη di θα ήταν

μηδενικά και η συσχέτιση θα ήταν τέλεια. Όσο δηλαδή είναι μεγαλύτερες οι τιμές των di, τόσο μικρότερος ο

συντελεστής Spearman. Ο υπολογισμός του συντελεστή συσχέτισης Spearman για τα δεδομένα του Πίνακα

5.6 είναι rs=0,710, τιμή που πλησιάζει τις τιμές των συντελεστών Pearson και Spearman για τα ποσοτικά

δεδομένα (Πίνακες 5.2 και 5.5).

Τέλος, αν για τις περισσότερες παρατηρήσεις η σχετική θέση στην κατάταξη ως προς τη μία

μεταβλητή είναι αντίστροφη ως προς τη σχετική θέση για την άλλη μεταβλητή, τότε ο συντελεστής Spearman

θα είναι αρνητικός.

nn

d

r

n

i

i

s

3

1

26

1

Page 15: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

154

Πίνακας 5.5 Υπολογισμός συντελεστή συσχέτισης Spearman για ποσοτικά δεδομένα

Ένας άλλος συντελεστής συσχέτισης ο οποίος χρησιμοποιεί τη σχετική θέση των παρατηρήσεων είναι

ο συντελεστής συσχέτισης Kendall τ (tau). Ο συντελεστής αυτός υπολογίζεται μετρώντας τα εναρμονισμένα

ή συσχετισμένα (concordant) ζεύγη τιμών και τα μη εναρμονισμένα ή μη συσχετισμένα (discordant) ζεύγη

τιμών. Δύο παρατηρήσεις i και j, με τιμές (xi, yi) και (xj, yj), ονομάζονται εναρμονισμένες ή συσχετισμένες

(concordant), αν και οι δύο τιμές της μίας παρατήρησης είναι μεγαλύτερες ή μικρότερες από τις αντίστοιχες

τιμές της άλλης παρατήρησης. Δηλαδή, αν xi < xj τότε yi < yj και αν xi > xj τότε yi > yj. Οι παρατηρήσεις (xj,

yj) και (xk, yk) θα ονομάζονται μη εναρμονισμένες ή μη συσχετισμένες (discordant), αν η διάταξη των τιμών

για την πρώτη μεταβλητή είναι αντίθετη από τη διάταξη των τιμών για τη δεύτερη μεταβλητή, δηλαδή, αν xi <

xj τότε yi > yj και αν xi > xj τότε yi < yj). Αν Nc είναι ο αριθμός των εναρμονισμένων ζευγών και Nd ο αριθμός

των μη εναρμονισμένων ζευγών ο συντελεστής Kendall ορίζεται ως εξής (Ξεκαλάκη, 2001):

2/)1(

nn

NN dc

Οι τιμές του συντελεστή Kendall τ είναι στο διάστημα μεταξύ –1 και 1, όπως και για τους

συντελεστές συσχέτισης Pearson και Spearman. Αν όλα τα ζεύγη παρατηρήσεων είναι εναρμονισμένα, τότε ο

συντελεστής τ = 1. Αν όλα τα ζεύγη είναι μη εναρμονισμένα, τότε τ = –1.

758,07980

19321

2020

32261

6

133

1

2

nn

d

r

n

i

i

s

Page 16: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

155

ΜΕΤΑΒΛΗΤΗ Υ ΜΕΤΑΒΛΗΤΗ Χ

AA ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ ΕΜΒΑΔΟΝ

1 έως 100000 60-90

2 έως 100000 <60

3 100001-200000 >90

4 100001-200000 >90

5 100001-200000 >90

6 100001-200000 >90

7 100001-200000 >90

8 100001-200000 >90

9 έως 100000 60-90

10 100001-200000 >90

11 100001-200000 >90

12 100001-200000 >90

13 100001-200000 >90

14 έως 100000 60-90

15 >200000 >90

16 100001-200000 60-90

17 >200000 60-90

18 έως 100000 60-90

19 έως 100000 <60

20 έως 100000 <60

Πίνακας 5.6 Δεδομένα στην ιεραρχική κλίμακα

5.2.5 Συντελεστές συσχέτισης για ονομαστικές μεταβλητές

Με τον έλεγχο Χ2 (Κεφάλαιο 4) μπορεί να ελεγχθεί αν υπάρχει σχέση μεταξύ δύο ποιοτικών μεταβλητών.

Υπάρχουν όμως συντελεστές οι οποίοι μετρούν την ένταση της σχέσης αυτής, με την ίδια έννοια όπως οι

συντελεστές Pearson, Spearman και Kendall που παρουσιάστηκαν παραπάνω. Οι συντελεστές αυτοί

ονομάζονται συνήθως μέτρα συνάφειας επειδή στηρίζονται σε πίνακες διασταυρώσεων μεταβλητών

(crosstabulation). Ενδεικτικά εδώ παρουσιάζονται οι συντελεστές φ (phi) και Kramer’s V, οι οποίοι μπορούν

να υπολογιστούν από τη στατιστική ελέγχου Χ2. Ο συντελεστής φ εφαρμόζεται σε πίνακες διαστάσεων 2x2,

ενώ ο Cramer’s V έχει γενικότερη εφαρμογή και σε μη τετραγωνικούς πίνακες με περισσότερες από δύο

γραμμές και στήλες.

Ο συντελεστής φ υπολογίζεται από τις επιμέρους συχνότητες του πίνακα διασταυρώσεων (Shaw &

Wheeler, 2000· Wong & Lee, 2005) ή από τον τύπο:

όπου Χ2 είναι η τιμή του κριτηρίου όπως υπολογίζεται από τον πίνακα των διασταυρώσεων των δύο

μεταβλητών και n το μέγεθος του δείγματος.

Page 17: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

156

Ο συντελεστής Cramer’s V υπολογίζεται ως εξής:

)1(

2

knV

όπου Χ2 είναι η τιμή του κριτηρίου όπως υπολογίζεται από τον πίνακα των διασταυρώσεων των δύο

μεταβλητών, n το μέγεθος του δείγματος και k είναι η μικρότερη διάσταση του πίνακα των διασταυρώσεων.

5.2.6 Υπολογισμός συντελεστών συσχέτισης με λογισμικό στατιστικής ανάλυσης

Όλοι οι προαναφερθέντες συντελεστές συσχέτισης και τα μέτρα συνάφειας, αλλά και άλλα μέτρα συνάφειας

τα οποία δεν αναφέρονται εδώ, υπολογίζονται από λογισμικά στατιστικής ανάλυσης. Στο SPSS οι

συντελεστές Pearson και Spearman, καθώς και ο συντελεστής μερικής συσχέτισης, υπολογίζονται από το

μενού correlate, ενώ τα μέτρα συνάφειας για τα ποιοτικά δεδομένα υπολογίζονται από το μενού crosstabs. Ο

συντελεστής συσχέτισης Pearson υπολογίζεται στο Excel με την ομώνυμη εντολή. Στο Video 5.1 φαίνεται ο

υπολογισμός του συντελεστή συσχέτισης Pearson r στο SPSS.

Video 5.1 Βίντεο

Υπολογισμός συντελεστή συσχέτισης Pearson

5.3 Ανάλυση Παλινδρόμησης

Η ανάλυση παλινδρόμησης (regression analysis) είναι συνδεδεμένη με την ανάλυση συσχέτισης και αποτελεί

μία από τις σημαντικότερες στατιστικές τεχνικές ανάλυσης δεδομένων με πολύ μεγάλο εύρος εφαρμογών στις

περισσότερες επιστήμες. Ο συντελεστής συσχέτισης δίνει μια ποσοτική εκτίμηση της σχέσης μεταξύ δύο ή

περισσότερων μεταβλητών. Με την παλινδρόμηση μπορούμε να προσεγγίσουμε τη μορφή της σχέσης αυτής

και να προσδιορίσουμε σχέσεις αιτίου-αιτιατού ή αιτίου-αποτελέσματος. Η μορφή της σχέσης εκφράζεται ως

μία εξίσωση (ή συναρτησιακή σχέση) η οποία συνδέει τις μεταβλητές. Εφόσον προσδιοριστεί η μορφή της

σχέσης μεταξύ των μεταβλητών, έχουμε δημιουργήσει ένα μοντέλο το οποίο μπορεί να θεωρηθεί ότι αποτελεί

μια απλοποιημένη περιγραφή της πραγματικότητας.

Στις επόμενες ενότητες παρουσιάζεται η γραμμική ανάλυση παλινδρόμησης και στα παραδείγματα

του κεφαλαίου αυτού θα επιδιώξουμε να ερμηνεύσουμε την αξία των κατοικιών από τα χαρακτηριστικά τους.

Για τον σκοπό αυτό, δεν είναι δυνατό να περιλάβουμε όλα τα επιμέρους χαρακτηριστικά των κατοικιών παρά

μόνο ορισμένα βασικά εξ αυτών. Τα χαρακτηριστικά που έχουμε στη διάθεσή μας είναι το εμβαδόν, η ηλικία,

ο όροφος, η ύπαρξη θέσης στάθμευσης, ο δήμος κ.ά. Δεν έχουμε όμως δεδομένα για άλλα σημαντικά

χαρακτηριστικά, όπως για την ποιότητα κατασκευής του ακινήτου, την πρόσβαση σε κοινωφελείς

δραστηριότητες και τα μέσα μεταφοράς, την ποιότητα του περιβάλλοντα χώρου κλπ. Στο μοντέλο της

παλινδρόμησης περιλαμβάνονται ορισμένα μόνο χαρακτηριστικά τα οποία, είτε είναι πιο σημαντικά από

άλλα, είτε διατίθενται δεδομένα για αυτά. Επομένως η αξία των κατοικιών δεν μπορεί να ερμηνευτεί πλήρως

από το μοντέλο της παλινδρόμησης. Αυτό όμως δεν αναιρεί τη χρησιμότητα της διαδικασίας, αφού η

απλοποιημένη παράσταση της πραγματικότητας είναι η απαρχή για τη διατύπωση θεωρίας (βλ. Κεφάλαιο 1).

Επίσης με την παλινδρόμηση θα είμαστε σε θέση να προσδιορίσουμε ποια μεταβλητή είναι πιο σημαντική

στο μοντέλο, αλλά και να κάνουμε προβλέψεις για την αξία των κατοικιών.

Μία από τις μεταβλητές είναι η εξαρτημένη μεταβλητή (dependent ή response variable) η οποία είναι

η μέτρηση. Οι τιμές της εξαρτημένης μεταβλητής ερμηνεύονται από τις τιμές μίας ή περισσότερων

ανεξάρτητων μεταβλητών (independent variables ή predictors ή input variables), οι οποίες είναι

υπεισερχόμενες μεταβλητές και αποτελούν τους επεξηγηματικούς παράγοντες. Όταν χρησιμοποιείται μόνο

μία ανεξάρτητη μεταβλητή, η παλινδρόμηση ονομάζεται απλή, ενώ όταν χρησιμοποιούνται δύο ή

περισσότερες ανεξάρτητες μεταβλητές, η παλινδρόμηση ονομάζεται πολλαπλή. Εφόσον δημιουργηθεί το

μοντέλο της παλινδρόμησης, μπορεί να χρησιμοποιηθεί και για την πρόβλεψη των τιμών της εξαρτημένης

μεταβλητής από τις τιμές των ανεξάρτητων μεταβλητών για παρατηρήσεις οι οποίες δεν υπήρχαν στα αρχικά

Page 18: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

157

δεδομένα. Για παράδειγμα, η αξία των κατοικιών μπορεί να ερμηνευθεί από το εμβαδόν και την ηλικία τους.

Στη συνέχεια, με βάση την εξίσωση της παλινδρόμησης, μπορεί να γίνει πρόβλεψη της αξίας μιας κατοικίας η

οποία δεν περιλαμβάνεται στα αρχικά δεδομένα, αλλά για την οποία γνωρίζουμε το εμβαδόν και την ηλικία.

Δηλαδή από τα δεδομένα για τις 800 κατοικίες, και συγκεκριμένα από τα δεδομένα για την αξία, το εμβαδόν

και την ηλικία, δημιουργείται μια εξίσωση η οποία εκφράζει τη σχέση μεταξύ των μεταβλητών αυτών και στη

συνέχεια μπορεί να γίνει εκτίμηση της αξίας μιας κατοικίας εκτός των 800 κατοικιών, εφόσον γνωρίζουμε το

εμβαδόν και την ηλικία της. Η χρησιμότητα της διαδικασίας αυτής στο συγκεκριμένο παράδειγμα είναι

προφανής για τους εκτιμητές της αξίας των ακινήτων. Αντίστοιχη είναι και η χρησιμότητα των εφαρμογών

της παλινδρόμησης σε όλες πρακτικά τις επιστήμες.

Η απόφαση για το ποια μεταβλητή είναι η εξαρτημένη και ποια ή ποιες οι ανεξάρτητες προϋποθέτει

την ύπαρξη κάποιας ερευνητικής υπόθεσης ή θεωρίας. Σε αρκετές περιπτώσεις είναι αυτονόητο ποια θα είναι

η εξαρτημένη μεταβλητή. Στο παράδειγμα της αξίας των κατοικιών είναι λογικό να υποθέσουμε ότι η αξία

εξαρτάται από το εμβαδόν, ενώ δεν είναι λογικό να εξαρτάται το εμβαδόν από την αξία. Ή όταν συνδυάζονται

σε ένα μοντέλο φυσικά και ανθρωπογενή φαινόμενα, εξαρτημένη μεταβλητή θα είναι το ανθρωπογενές

φαινόμενο. Για παράδειγμα αν έχουμε δύο μεταβλητές, όπως το υψόμετρο και η πυκνότητα του πληθυσμού,

είναι λογικό η πυκνότητα του πληθυσμού να εξαρτάται από το υψόμετρο και όχι το αντίθετο. Σε ορισμένα

προβλήματα δεν είναι όμως προφανές ποια είναι η εξαρτημένη μεταβλητή και χρειάζεται να αναπτυχθεί ένα

σκεπτικό για αυτό. Για παράδειγμα για δύο μεταβλητές, όπως η έκταση της καλλιεργούμενης γης και η

απασχόληση στη γεωργία, κάθε μία από τις δύο μεταβλητές θα μπορούσε να είναι η εξαρτημένη μεταβλητή.

Ίσως είναι πιο λογικό να υποθέσουμε ότι η καλλιεργούμενη γη έχει γενικά σταθερή έκταση όπως συμβαίνει

στην Ελλάδα, οπότε θα είναι η ανεξάρτητη μεταβλητή. Στην περίπτωση όμως της μετακίνησης του

πληθυσμού προς τις Δυτικές ακτές των ΗΠΑ τον 19ο αιώνα, θα μπορούσαμε να υποθέσουμε ότι όσο

περισσότεροι απασχολούμενοι στη γεωργία, τόσο μεγαλύτερη η έκταση της καλλιεργούμενης γης. Πράγματι,

την εποχή αυτή στις ΗΠΑ ήταν διαθέσιμες μεγάλες εκτάσεις δυνητικά καλλιεργήσιμης γης, οπότε η έκταση

της καλλιεργούμενης γης θα ήταν η εξαρτημένη μεταβλητή.

Η ανάλυση παλινδρόμησης έχει μεγάλο εύρος εφαρμογών σε όλες τις επιστήμες και είναι

θεμελιώδους σημασίας στη στατιστική ανάλυση. Έχει εφαρμογές στις φυσικές και τις κοινωνικές επιστήμες,

στη Μετεωρολογία, στις νομικές επιστήμες, στις επιστήμες των Μηχανικών και της Πληροφορικής, στην

Οικονομία, τη Βιομετρία και τις πειραματικές επιστήμες (Chatterjee & Hadi, 2012· Κίτσος, 1991). Στην

Ιατρική, μοντέλα παλινδρόμησης χρησιμοποιούνται για να συνδέσουν την εμφάνιση ασθενειών με

παράγοντες κινδύνου, θα μπορούσε για παράδειγμα να συνδεθούν τα υψηλά επίπεδα αρτηριακής πίεσης, ως

εξαρτημένη μεταβλητή, με την ηλικία και το βάρος των ασθενών (ανεξάρτητες μεταβλητές). Στην οικονομία,

μοντέλα παλινδρόμησης χρησιμοποιούνται στην πρόβλεψη μακροοικονομικών μεγεθών, όπως το ΑΕΠ μιας

χώρας ή η κατανάλωση, ενώ πολύ διαδεδομένες είναι οι χρονολογικές σειρές, όπου ανεξάρτητη μεταβλητή

είναι ο χρόνος. Η μέθοδος των ελαχίστων τετραγώνων (ΜΕΤ) με την οποία συνήθως υπολογίζεται η εξίσωση

της παλινδρόμησης έχει την αφετηρία της στην Αστρονομία και τη Γεωδαισία και τις μετρήσεις της τροχιάς

των ουρανίων σωμάτων για τις ανάγκες της ναυσιπλοΐας κατά την εποχή των Μεγάλων Εξερευνήσεων (βλ.

Κεφάλαιο 1). Η μέθοδος διατυπώθηκε στην τελική της μορφή από τον μαθηματικό Gauss το 1809 (Κίτσος,

2015· Stigler, 1981) και χρησιμεύει στη Γεωδαισία για τη συνόρθωση των σφαλμάτων των παρατηρήσεων.

Στην υδρολογία μπορεί να μελετηθεί η σχέση βροχόπτωσης και απορροής σε λεκάνες απορροής ποταμών.

Ιστορικά ο όρος παλινδρόμηση (regression) χρησιμοποιήθηκε από τον Άγγλο ανθρωπολόγο Sir

Francis Galton σε εργασίες του στον τομέα της γενετικής. Για παράδειγμα στην εργασία Regression Towards

Mediocrity in Hereditary Stature το 1885 εξετάστηκε η σχέση του ύψους των παιδιών με το ύψος των γονέων

και διαπιστώθηκε ότι τα παιδιά είχαν τάση να παλινδρομούν προς το μέσο ύψος του πληθυσμού. Δηλαδή

παιδιά ψηλών γονέων τείνουν να είναι κάπως κοντύτερα από τους γονείς τους, ενώ παιδιά κοντών γονέων

τείνουν να είναι ψηλότερα, πλησιάζοντας έτσι τον μέσο όρο (Δαμιανού κ.ά., 2010· Draper & Smith, 1998·

Stanton, 2001).

5.3.1 Η εξίσωση της παλινδρόμησης

Η γραμμική σχέση μεταξύ δύο μεταβλητών για δεδομένα από δείγμα εκφράζεται γενικά από την εξίσωση:

Y = a+bX+e

Page 19: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

158

όπου Y είναι η εξαρτημένη μεταβλητή, X η ανεξάρτητη μεταβλητή, a ,b οι παράμετροι της εξίσωσης και e το

σφάλμα της εκτίμησης.

Για δεδομένα στατιστικού πληθυσμού χρησιμοποιούνται τα αντίστοιχα ελληνικά γράμματα6:

Y = α+βX+ε

Στη γραμμική σχέση για κάθε μεταβολή της μεταβλητής X κατά μία μονάδα, η μεταβλητή Y

μεταβάλλεται με σταθερό τρόπο κατά b. Η παράμετρος b ονομάζεται συντελεστής παλινδρόμησης

(regression coefficient) και εκφράζει την κλίση της ευθείας. Η τιμή του μπορεί να ελεγχθεί με τον έλεγχο t και

μηδενική υπόθεση β=0 . Η παράμετρος a είναι η τιμή της Υ για X=0. Το a δεν μπορεί πάντα να ερμηνευτεί με

αξιόπιστο τρόπο.

Σε γεωμετρική απεικόνιση, η εξίσωση της απλής παλινδρόμησης παριστάνεται με μια ευθεία γραμμή.

Πάντα η μεταβλητή Y είναι η εξαρτημένη μεταβλητή και η μεταβλητή X η ανεξάρτητη μεταβλητή, δηλαδή

θεωρούμε ότι η μεταβλητή Y ερμηνεύεται ή μπορεί να προβλεφθεί από τη μεταβλητή X. Αυτή είναι η πιο

απλή μορφή παλινδρόμησης η οποία μπορεί να επεκταθεί με την προσθήκη περισσότερων ανεξάρτητων

μεταβλητών.

Στο Διάγραμμα 5.1 παρουσιάστηκε μια ισχυρή γραμμική σχέση μεταξύ της αξίας των κατοικιών και

του εμβαδού τους. Αν η σχέση μεταξύ των δύο μεταβλητών ήταν τέλεια όλα τα σημεία θα βρίσκονταν σε

ευθεία γραμμή. Όμως στις εμπειρικές αναλύσεις αυτό συνήθως δεν συμβαίνει, οπότε προσαρμόζουμε μια

ευθεία γραμμή στα δεδομένα, τη γραμμή παλινδρόμησης. Η γραμμή αυτή εκφράζει με μαθηματικό τρόπο τη

σχέση των δύο μεταβλητών με κάποιο σφάλμα όμως. Όσο περισσότερο η γεωμετρική απεικόνιση των

σημείων (παρατηρήσεων) πλησιάζει την ευθεία γραμμή, τόσο καλύτερη θα είναι η προσαρμογή της γραμμής

της παλινδρόμησης στα δεδομένα. Ο τρόπος προσαρμογής της γραμμής της παλινδρόμησης στα εμπειρικά

δεδομένα είναι το αντικείμενο της στατιστικής τεχνικής της παλινδρόμησης. Από τα διαθέσιμα δεδομένα οι

τιμές των Χ και Υ είναι γνωστές και υπολογίζονται οι τιμές των παραμέτρων a και b, οι οποίες περιγράφουν

τη γραμμή της παλινδρόμησης.

Η ευθεία της απλής παλινδρόμησης φαίνεται στο Διάγραμμα 5.7. Στον κατακόρυφο άξονα

τοποθετείται πάντα η εξαρτημένη μεταβλητή Υ και στον οριζόντιο η ανεξάρτητη μεταβλητή Χ. Το a είναι το

σημείο όπου η γραμμή τέμνει τον κατακόρυφο άξονα (σταθερά ή αποτέμνουσα), ενώ το b είναι η κλίση της

ευθείας, δηλαδή η εφαπτομένη της γωνίας που σχηματίζει η γραμμή της παλινδρόμησης με τον άξονα Χ. Σε

κάθε τιμή της εξαρτημένης μεταβλητής Υ αντιστοιχεί μία άλλη τιμή η οποία αποτελεί την εκτίμηση από την

εξίσωση της παλινδρόμησης. Η τιμή αυτή συμβολίζεται με και στο Διάγραμμα 5.7 εμφανίζεται πάνω στην

ευθεία και ισχύει:

=a+ bX

Στην παραπάνω εξίσωση, για κάθε τιμή της μεταβλητής Χ προκύπτει η εκτιμώμενη τιμή (predicted

value).

Στο Διάγραμμα 5.7 απεικονίζονται θετικές τιμές των Χ και Υ αλλά θα μπορούσαν να υπάρχουν και

αρνητικές τιμές.

Ιδιαίτερη σημασία στην ανάλυση παλινδρόμησης έχουν τα υπόλοιπα ή κατάλοιπα (residuals) ei που

είναι οι διαφορές μεταξύ των παρατηρούμενων (πραγματικών) τιμών της εξαρτημένης μεταβλητής και αυτών

που προκύπτουν από την εξίσωση της παλινδρόμησης (εκτιμώμενες) τιμές. Τα κατάλοιπα αφορούν το

γεγονός ότι δεν περιλαμβάνονται όλες οι πιθανές ανεξάρτητες μεταβλητές στο μοντέλο της παλινδρόμησης.

Στο διάγραμμα 5.7 τα κατάλοιπα είναι οι αποστάσεις κάθε σημείου από τη γραμμή παλινδρόμησης, κατά την

παράλληλο προς Υ. Τα κατάλοιπα συμβολίζονται συνήθως με ei και για μια παρατήρηση i ισχύει:

ei=yi – i

Όταν μια παρατήρηση βρίσκεται πάνω από τη γραμμή της παλινδρόμησης, η εκτιμώμενη τιμή ( i)

είναι μικρότερη της αρχικής παρατήρησης (yi) και το κατάλοιπο είναι θετικό, οπότε υπάρχει υποεκτίμηση

6 Συχνά οι παράμετροι της παλινδρόμησης δεν συμβολίζονται με α και β, αλλά με β0 και β1

Page 20: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

159

της τιμής για τη συγκεκριμένη παρατήρηση. Όταν η παρατήρηση βρίσκεται κάτω από τη γραμμή, το

κατάλοιπο είναι αρνητικό και υπάρχει υπερεκτίμηση για τη συγκεκριμένη παρατήρηση.

Διάγραμμα 5.7 Η γραμμή της απλής παλινδρόμησης: κατάλοιπα

Η προσαρμογή της γραμμής παλινδρόμησης στα εμπειρικά δεδομένα γίνεται με ορισμένα μαθηματικά

κριτήρια. Το συνηθέστερο είναι η μέθοδος των ελαχίστων τετραγώνων, με την οποία ελαχιστοποιείται το

άθροισμα των τετραγώνων των αποκλίσεων των παρατηρήσεων από τη γραμμή παλινδρόμησης που είναι τα

κατάλοιπα, δηλαδή:

minˆ1

2

n

i

ii yy

Από την ελαχιστοποίηση αυτή προέκυψε η ονομασία Μέθοδος των Ελαχίστων Τετραγώνων (ΜΕΤ)

την οποία πρώτος εφάρμοσε ο Gauss για τη συνόρθωση γεωδαιτικών μετρήσεων.

Οι μαθηματικοί τύποι υπολογισμού της γραμμής παλινδρόμησης με τη μέθοδο των ελαχίστων

τετραγώνων προκύπτουν από τις λεγόμενες κανονικές εξισώσεις (Δαμιανού κ.ά., 2010· Κίτσος, 2015·

Rogerson, 2006). Για την απλή παλινδρόμηση ισχύει:

n

i

i

n

i

i yxbna11

και

i

n

i

i

n

i

i

n

i

i yxxbxa

11

2

1

Οι εξισώσεις αυτές λύνονται ως προς a και b:

Page 21: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

160

και

XbYa

Η ευθεία της παλινδρόμησης διέρχεται από τον μέσο των Χ και Υ.

Τα a και b είναι οι εκτιμήσεις των παραμέτρων α και β από τα εμπειρικά δεδομένα και ελέγχονται με

τον έλεγχο t, με μηδενική υπόθεση ότι ισούνται με μηδέν. Πρέπει να σημειωθεί ότι εφόσον τα δεδομένα

προέρχονται από δείγμα, αν υπολογίζαμε την εξίσωση της παλινδρόμησης από ένα διαφορετικό δείγμα οι

παράμετροι θα ήταν διαφορετικές. Υπάρχει όμως μία «αληθής» γραμμή παλινδρόμησης η οποία είναι

θεωρητική και αφορά τον πληθυσμό, την οποία προσεγγίζουμε με το δείγμα.

5.3.2 Ανάλυση της διασποράς σε ερμηνευόμενη και μη ερμηνευόμενη

Στην ανάλυση παλινδρόμησης αντικείμενο ερμηνείας είναι η εξαρτημένη μεταβλητή Υ. Σε όρους στατιστικής

ανάλυσης αυτό σημαίνει ότι επιδιώκουμε να ερμηνεύσουμε τη διασπορά της Υ, δηλαδή τη διαφοροποίηση

των τιμών της Υ γύρω από τον αριθμητικό μέσο. Επειδή όπως εξηγήθηκε παραπάνω το μοντέλο της

παλινδρόμησης δεν μπορεί να περιλάβει όλες τις ανεξάρτητες μεταβλητές οι οποίες θα εξηγούσαν πλήρως τη

μεταβλητότητα των τιμών της Υ, η διασπορά της Υ μπορεί να διαιρεθεί σε δύο τμήματα, το ερμηνευόμενο και

το μη ερμηνευόμενο τμήμα. Δεδομένου ότι η διασπορά είναι το άθροισμα των τετραγώνων των αποκλίσεων

από τον αριθμητικό μέσο διαιρεμένο με n-1 (βλ. Κεφάλαιο 3) αποδεικνύεται (Κίτσος, 2015) ότι:

Ο όρος στα αριστερά της εξίσωσης αντιστοιχεί στη διασπορά της Υ και αποτελεί το συνολικό

άθροισμα των τετραγώνων (total sum of squares-TSS). Ο πρώτος όρος στα δεξιά της εξίσωσης είναι το

άθροισμα των τετραγώνων των σφαλμάτων (sum of squares of errors-SSE) και αποτελεί το μη ερμηνευόμενο

τμήμα της διασποράς, το οποίο ελαχιστοποιείται με τη μέθοδο των ελαχίστων τετραγώνων. Ο δεύτερος όρος

στα δεξιά της εξίσωσης είναι το άθροισμα των τετραγώνων των οφειλόμενων στην παλινδρόμηση (sum of

squares of regression-SSR) και αποτελεί το ερμηνευόμενο τμήμα της διασποράς.

Η αναλογία της συνολικής διασποράς η οποία ερμηνεύεται από την παλινδρόμηση ονομάζεται

συντελεστής προσδιορισμού (coefficient of determination) και ισούται με το τετράγωνο του συντελεστή

συσχέτισης Pearson r. Το μέτρο αυτό συμβολίζεται με R2

και εκφράζει το ποσοστό της διασποράς της

εξαρτημένης μεταβλητής Y που ερμηνεύεται από την ανεξάρτητη μεταβλητή X:

Η τιμή του R2 κυμαίνεται από 0 έως 1. Αν το R

2 είναι κοντά στο 1, το μοντέλο της παλινδρόμησης

έχει μεγάλη δυνατότητα ερμηνείας της εξαρτημένης μεταβλητής και τα σφάλματα είναι μικρά. Αντίθετα τιμές

του R2 κοντά στο 0, δείχνουν ότι δεν είναι επιτυχές το μοντέλο της παλινδρόμησης για την ερμηνεία της

n

i

i

ii

n

i

Xx

XxYy

b

1

2

1

)(

Page 22: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

161

εξαρτημένης μεταβλητής. Η τιμή του R2 ελέγχεται στατιστικά με τον έλεγχο F, με μηδενική υπόθεση ότι

R2=0. Ο συντελεστής προσδιορισμού παράγει αξιόπιστα αποτελέσματα όταν ο αριθμός των παρατηρήσεων

είναι σημαντικά υψηλότερος από τον αριθμό των μεταβλητών. Ο προσαρμοσμένος (ή διορθωμένος)

συντελεστής προσδιορισμού (adjusted R2) είναι συνήθως χαμηλότερος του R

2 και λαμβάνει υπόψη τον αριθμό

των παραμέτρων του μοντέλου σε σχέση με το μέγεθος του δείγματος.

5.3.3 Αξιολόγηση του μοντέλου της παλινδρόμησης

Η παλινδρόμηση αξιολογείται πρωτίστως από τον συντελεστή προσδιορισμού R2. Όσο μεγαλύτερη η τιμή του

R2, τόσο καλύτερη η προσαρμογή του μοντέλου στα δεδομένα (goodness of fit), επειδή ερμηνεύεται η

διασπορά της εξαρτημένης μεταβλητής κατά το αντίστοιχο ποσοστό. Για παράδειγμα αν R2=0,75, τότε 75%

της διασποράς της μεταβλητής Y ερμηνεύεται από τη μεταβλητή Χ, το οποίο είναι ένα σημαντικό ποσοστό.

Για τον λόγο αυτό, στα διαγράμματα διασποράς, όπως προκύπτουν από το SPSS (βλ. διαγράμματα 5.1 έως

5.3) εμφανίζεται και το R2, οπότε αν είναι χαμηλό δεν είναι σκόπιμο να προχωρήσουμε σε ανάλυση

παλινδρόμησης. Με τον τρόπο αυτό, ο συντελεστής προσδιορισμού μετρά επίσης τη σπουδαιότητα της

μεταβλητής Χ για τον προσδιορισμό της μεταβλητής Y.

Πρέπει να σημειωθεί ότι το R2

είναι μικρότερο του συντελεστή συσχέτισης r, επειδή ο συντελεστής

συσχέτισης είναι δεκαδικός αριθμός. Έτσι μια πολύ ισχυρή συσχέτιση r=0,9 θα δώσει R2=0,81.

Ένας δεύτερος τρόπος αξιολόγησης του μοντέλου της παλινδρόμησης είναι μέσω των καταλοίπων

από τα οποία υπολογίζεται το τυπικό σφάλμα εκτίμησης της Y, δηλαδή το σφάλμα που κατά μέσο όρο

αντιστοιχεί σε κάθε παρατήρηση:

2

2

n

es i

e όπου ei τα κατάλοιπα της παλινδρόμησης

Ενώ το R2 είναι καθαρός αριθμός, το τυπικό σφάλμα της εκτίμησης εκφράζεται στις μονάδες

μέτρησης της εξαρτημένης μεταβλητής.

5.3.4 Παραδοχές στην ανάλυση παλινδρόμησης

Υπάρχει μια σειρά παραδοχών για την απλή παλινδρόμηση που αφορούν τον πληθυσμό και το σφάλμα της

εκτίμησης (Draper & Smith, 1998· Graybill & Iyer, 1994):

1. Η σχέση μεταξύ Υ και Χ υποθέτουμε ότι είναι γραμμική, ισχύει δηλαδή στον πληθυσμό η εξίσωση

Y = α+βX+ε.

2. Σε κάθε τιμή της Χ αντιστοιχεί ένας υποπληθυσμός της Υ ο οποίος ακολουθεί την κανονική

κατανομή.

3. Οι διακυμάνσεις της Υ για τις διάφορες τιμές της Χ είναι ίσες και αυτή η ιδιότητα ονομάζεται

ομοσκεδαστικότητα (homoscedasticity).

4. Τα κατάλοιπα έχουν αριθμητικό μέσο μηδέν και σταθερή διασπορά για όλο το εύρος των τιμών της

ανεξάρτητης μεταβλητής.

5. Τα κατάλοιπα είναι ανεξάρτητα, δηλαδή η τιμή του σφάλματος για μια παρατήρηση δεν εξαρτάται

από την τιμή του σφάλματος για μια άλλη παρατήρηση.

6. Τα κατάλοιπα ακολουθούν την κανονική κατανομή.

Οι παραδοχές για την ομοσκεδαστικότητα και την ανεξαρτησία των καταλοίπων παραβιάζονται

συχνά στη μελέτη των γεωγραφικών φαινομένων (Robinson, 1998· Taylor, 1977).

5.3.5 Πολλαπλή Παλινδρόμηση

Συνήθως η εξαρτημένη μεταβλητή δεν επηρεάζεται μόνο από μία μεταβλητή αλλά από δύο ή περισσότερες

ανεξάρτητες μεταβλητές. Για παράδειγμα, η αξία των κατοικιών δεν εξαρτάται μόνο από το εμβαδόν αλλά

και από άλλα χαρακτηριστικά του ακινήτου και της περιοχής όπου βρίσκεται. Η παλινδρόμηση με

περισσότερες από μία ανεξάρτητες μεταβλητές ονομάζεται πολλαπλή παλινδρόμηση και η εξίσωση έχει την

ακόλουθη μορφή:

Page 23: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

162

Y = a + b1X1 + b2 X2 + ….. +bkXk + e

όπου k είναι ο αριθμός των εισαγόμενων ανεξάρτητων μεταβλητών.

Ο αριθμός των ανεξάρτητων μεταβλητών στην ανάλυση πολλαπλής παλινδρόμησης έχει σχέση με

τον αριθμό των παρατηρήσεων. Στη βιβλιογραφία αναφέρονται εμπειρικοί κανόνες, όπως για παράδειγμα ότι

σε κάθε ανεξάρτητη μεταβλητή πρέπει να αντιστοιχούν τουλάχιστον 10 ή 20 παρατηρήσεις. Συνήθως ο

αριθμός των ανεξάρτητων μεταβλητών δεν υπερβαίνει τις δέκα.

Επίσης οι ανεξάρτητες μεταβλητές στην πολλαπλή παλινδρόμηση δεν πρέπει να έχουν υψηλή

συσχέτιση μεταξύ τους ή αλλιώς δεν πρέπει να έχουν πολυσυγγραμμικότητα (multicollinearity). Παράδειγμα

πολυσυγγραμμικότητας αποτελούν τα δεδομένα για τους νομούς της χώρας (Πίνακας 1.2). Στον Πίνακα 5.4

όλες οι μεταβλητές, εκτός της απασχόλησης στη γεωργία, παρουσιάζουν υψηλές συσχετίσεις μεταξύ τους.

Στην πολλαπλή παλινδρόμηση προσδιορίζονται περισσότερες παράμετροι με τρόπο ανάλογο όπως

και για την απλή παλινδρόμηση, δηλαδή με την ελαχιστοποίηση του αθροίσματος των τετραγώνων των

καταλοίπων. Για παράδειγμα εφόσον έχουμε δύο ανεξάρτητες μεταβλητές, πρέπει να προσδιοριστούν τρεις

παράμετροι, οι a, b1 και b2. Η περίπτωση αυτή της πολλαπλής παλινδρόμησης αντιστοιχεί σε προσαρμογή

επιπέδου (αντί ευθείας) και υπάρχει δυνατότητα παράστασης σε τρεις διαστάσεις. Με περισσότερες

ανεξάρτητες μεταβλητές δεν υπάρχει δυνατότητα γεωμετρικής απεικόνισης του μοντέλου της παλινδρόμησης.

ΠΑΡΑΔΕΙΓΜΑ 5.5: Απλή και πολλαπλή παλινδρόμηση Στο παράδειγμα αυτό παρουσιάζεται η ανάλυση παλινδρόμησης για τα δεδομένα των κατοικιών της

Αττικής (βλ. Πίνακα 1.2). Εξαρτημένη μεταβλητή θα είναι η μεταβλητή ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ επειδή μας

ενδιαφέρει να προσδιορίσουμε τους παράγοντες οι οποίοι επηρεάζουν την αξία των κατοικιών. Οι

ανεξάρτητες μεταβλητές θα επιλεγούν από τις υπόλοιπες μεταβλητές στα δεδομένα. Οι ποσοτικές μεταβλητές

είναι το ΕΜΒΑΔΟΝ, ο ΟΡΟΦΟΣ, ο ΑΡΙΘΜΟΣ ΥΠΝΟΔΩΜΑΤΙΩΝ, η ΗΛΙΚΙΑ (η οποία έχει υπολογιστεί από

το έτος κατασκευής) και η ΑΞΙΑ ΑΝΑ τ.μ. Πρέπει εδώ να σημειωθεί ότι ο σημαντικότερος ίσως

προσδιοριστικός παράγοντας της αξίας των ακινήτων, η θέση, δεν μπορεί να περιληφθεί στο μοντέλο. Η

διαθέσιμη πληροφορία για τη θέση των κατοικιών είναι ο δήμος στον οποίο ανήκουν. Όμως η πληροφορία

αυτή αποτελεί ονομαστική μεταβλητή η οποία δεν μπορεί να περιληφθεί στην ανάλυση συσχέτισης και την

ανάλυση παλινδρόμησης. Παρακάτω, με την ανάλυση των καταλοίπων και τη χωρική παλινδρόμηση, θα

ενσωματωθεί και η θέση των κατοικιών στην ανάλυση. Οι ποιοτικές μεταβλητές, όπως η θέση στάθμευσης

και το τζάκι, επειδή λαμβάνουν μόνο δύο τιμές, 0 και 1, θα μπορούσαν να περιληφθούν στην ανάλυση ως

ψευδομεταβλητές (dummy variables) (βλ. παρακάτω ενότητα 5.3.6).

Στα διαγράμματα 5.1 και 5.3 έχει διερευνηθεί η γραμμική σχέση για τα ζεύγη μεταβλητών ΑΞΙΑ

ΚΑΤΟΙΚΙΑΣ - ΕΜΒΑΔΟΝ και ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ - ΗΛΙΚΙΑ, όπου διαπιστώθηκε γραμμική σχέση, αν και

ασθενής για την περίπτωση της ηλικίας. Η διαδικασία θα μπορούσε να επαναληφθεί εύκολα για όλα τα ζεύγη

μεταβλητών με μεταβλητή Υ την ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ.

Στον Πίνακα 5.3 έχουν υπολογιστεί οι συντελεστές συσχέτισης r του Pearson. Στον πίνακα αυτόν

παρατηρούμε τις τιμές του συντελεστή συσχέτισης για όλους τους συνδυασμούς των μεταβλητών με την

ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ. Ο μεγαλύτερος συντελεστής συσχέτισης αφορά το ζεύγος μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ

και ΕΜΒΑΔΟΝ και έχει την τιμή r = 0,872. Αυτή η τιμή του συντελεστή σημαίνει ότι η συσχέτιση είναι

ισχυρή και θετική. Δεδομένου ότι είναι λογικό να θεωρήσουμε ότι η αξία των κατοικιών εξαρτάται από το

εμβαδόν τους, μπορούμε να ξεκινήσουμε την ανάλυση απλής παλινδρόμησης με εξαρτημένη μεταβλητή την

ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και ανεξάρτητη το ΕΜΒΑΔΟΝ.

Στον Πίνακα 5.7 παρουσιάζονται τα αποτελέσματα της απλής παλινδρόμησης από το SPSS. Τα

αποτελέσματα αποτελούνται από τέσσερεις επιμέρους πίνακες.

Στον πρώτο πίνακα περιγράφεται το μοντέλο, δηλαδή ποια είναι η εξαρτημένη και ποια η ανεξάρτητη

μεταβλητή. Στον δεύτερο πίνακα Model Summary παρουσιάζονται τα μέτρα με τα οποία αξιολογείται η

προσαρμογή του μοντέλου της παλινδρόμησης στα δεδομένα. Ο συντελεστής συσχέτισης εμφανίζεται με

R=0,872, όσο δηλαδή και στον Πίνακα 5.3. Ο συντελεστής προσδιορισμού εμφανίζεται στη στήλη R square

και είναι R2=0,872

2=0,761. Παρατηρούμε ότι η ίδια τιμή εμφανίζεται και στο διάγραμμα διασποράς

(Διάγραμμα 5.1) με την ένδειξη R sq linear= 0,761. Επομένως 76,1% της διασποράς της ΑΞΙΑΣ ΚΑΤΟΙΚΙΑΣ

ερμηνεύεται από το ΕΜΒΑΔΟΝ. Το τυπικό σφάλμα της εκτίμησης εμφανίζεται στη στήλη Std. Error of the

Estimate και ισούται με 136005,747 ευρώ. Αυτό είναι το μέσο σφάλμα εκτίμησης ανά παρατήρηση και είναι

υψηλό.

Page 24: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

163

Στον τρίτο πίνακα ANOVA παρουσιάζεται η ανάλυση της διασποράς (Sum of Squares) σε

ερμηνευόμενη (Regression) και μη ερμηνευόμενη (Residual).

Στον τέταρτο πίνακα στη στήλη Unstandardized coefficients B βρίσκεται ο υπολογισμός των

παραμέτρων της γραμμής της παλινδρόμησης. Η πρώτη παράμετρος Constant είναι η παράμετρος a της

εξίσωσης και ακολουθεί ο συντελεστής παλινδρόμησης b δίπλα στο ΕΜΒΑΔΟΝ. Οπότε η εξίσωση της απλής

παλινδρόμησης διαμορφώνεται ως εξής:

ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ = -112675,795+ 4143,805· ΕΜΒΑΔΟΝ

Πίνακας 5.7 Ανάλυση απλής παλινδρόμησης (SPSS)

Αν χρησιμοποιήσουμε τα δεδομένα για την πρώτη κατοικία του Πίνακα 5.1 η αξία της κατοικίας είναι

55.000 και το εμβαδόν 71τ.μ. Αν αντικαταστήσουμε το εμβαδόν στην παραπάνω εξίσωση προκύπτει η

εκτιμώμενη τιμή =181534,36 ευρώ. Το κατάλοιπο για την κατοικία αυτή είναι =55000-181534,36

= -126534,36 ευρώ. Δηλαδή η συγκεκριμένη κατοικία έχει υπερεκτιμηθεί σημαντικά και έχει αρνητικό

κατάλοιπο 126.534,36 ευρώ. Δεν έχουν όμως όλες οι παρατηρήσεις το ίδιο σφάλμα, σε κάποιες κατοικίες το

σφάλμα είναι μικρό, σε άλλες θετικό και σε άλλες αρνητικό, με αποτέλεσμα το αλγεβρικό άθροισμα των

καταλοίπων είναι μηδέν. Η παραπάνω εξίσωση μπορεί να χρησιμοποιηθεί και για την πρόβλεψη της αξίας

μιας κατοικίας η οποία δεν περιλαμβάνεται στα αρχικά δεδομένα, όταν γνωρίζουμε το εμβαδόν της.

Αν θέλουμε να βελτιώσουμε την ερμηνευτική ικανότητα του μοντέλου, μπορούμε να επιλέξουμε μια

δεύτερη ανεξάρτητη μεταβλητή, όπως είναι η ηλικία των κατοικιών. Ο συντελεστής συσχέτισης Pearson είναι

r = –0,349 (Πίνακας 5.3), ο οποίος δεν είναι ισχυρός και το αρνητικό πρόσημο δηλώνει ότι όσο αυξάνει η

Page 25: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

164

ηλικία των κατοικιών μειώνεται η αξία τους. Ο συντελεστής προσδιορισμού για την ΗΛΙΚΙΑ είναι μόνο 0,122

(Διάγραμμα 5.3). Τα αποτελέσματα της πολλαπλής παλινδρόμησης με εξαρτημένη μεταβλητή την ΑΞΙΑ

ΚΑΤΟΙΚΙΑΣ και ανεξάρτητες το ΕΜΒΑΔΟΝ και την ΗΛΙΚΙΑ φαίνονται στον Πίνακα 5.8 (τα τμήματα Model

Summary και Coefficients). Ο συντελεστής προσδιορισμού με την προσθήκη ανεξάρτητων μεταβλητών

μεγαλώνει ή μένει σταθερός, αλλά η επιλογή πρέπει να γίνεται με βάση τη λογική και τη θεωρία και όχι μόνο

με μαθηματικά κριτήρια. Στο παράδειγμα αυτό, παρόλο που η ηλικία είναι μια λογική επιλογή να αποτελέσει

τη δεύτερη ανεξάρτητη μεταβλητή, δεν έχει μεγάλη συνεισφορά7 στην ερμηνεία της μεταβλητής ΑΞΙΑ

ΚΑΤΟΙΚΙΑΣ και ο συντελεστής προσδιορισμού για την πολλαπλή παλινδρόμηση αυξάνει κατά δύο μονάδες

περίπου από 76,1% σε 77,9% (Πίνακας 5.8). Συνήθως όταν το R2 αυξάνει, το τυπικό σφάλμα της εκτίμησης

μειώνεται, και στο συγκεκριμένο παράδειγμα παρατηρείται μικρή μείωση του σφάλματος από 136005,747 σε

130706,296 ευρώ. Η εξίσωση της πολλαπλής παλινδρόμησης διαμορφώνεται ως εξής:

ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ = -55830,741+ 3977,343· ΕΜΒΑΔΟΝ -3142,758· ΗΛΙΚΙΑ

Ο συντελεστής παλινδρόμησης για τη μεταβλητή ΗΛΙΚΙΑ είναι αρνητικός λόγω της αντίστροφης

σχέσης με την αξία των κατοικιών. Τέλος παρατηρούμε ότι οι στατιστικοί έλεγχοι (στις δύο τελευταίες

στήλες του πίνακα coefficients) δείχνουν αξιόπιστα αποτελέσματα και για την απλή και για την πολλαπλή

παλινδρόμηση. Εάν οι στατιστικοί έλεγχοι δεν έδειχναν αξιόπιστα αποτελέσματα για έναν συντελεστή

παλινδρόμησης, τότε θα έπρεπε να αφαιρεθεί από την ανάλυση.

Στα αποτελέσματα του SPSS, καθώς και άλλων λογισμικών στατιστικής ανάλυσης, εκτός από τους

συντελεστές παλινδρόμησης Β παρουσιάζονται και οι τυποποιημένοι συντελεστές Beta (στη στήλη

Standardized coefficients). Οι συντελεστές Beta προκύπτουν από τη μετατροπή των τιμών των μεταβλητών

σε τιμές z της κανονικής κατανομής. Επομένως οι τυποποιημένοι συντελεστές Beta δεν επηρεάζονται από τις

μονάδες μέτρησης των ανεξάρτητων μεταβλητών και μπορούν να συγκριθούν μεταξύ τους. Με αυτόν τον

τρόπο είναι δυνατό να διακρίνουμε τη σχετική σπουδαιότητα των ανεξάρτητων μεταβλητών στη μεταβολή

της εξαρτημένης μεταβλητής. Στο παράδειγμα του Πίνακα 5.8 ο συντελεστής Beta για το εμβαδόν είναι 0,837

και για την ηλικία -0,141. Κατά συνέπεια, το εμβαδόν έχει πολύ μεγαλύτερη επίδραση στην αξία των

κατοικιών σε σχέση με την ηλικία, ενώ τα πρόσημα παραμένουν τα ίδια όπως και για τους συντελεστές Β.

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of

the Estimate

1 ,883a ,779 ,779 130706,296

a, Predictors: (Constant), ΗΛΙΚΙΑ, ΕΜΒΑΔΟΝ

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig. B Std. Error Beta

1 (Constant) -55830,741 12962,395 -4,307 ,000

ΕΜΒΑΔΟΝ 3977,343 89,187 ,837 44,596 ,000

ΗΛΙΚΙΑ -3142,758 418,975 -,141 -7,501 ,000

a, Dependent Variable: ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ

Πίνακας 5.8 Ανάλυση πολλαπλής παλινδρόμησης (SPSS)

Ο υπολογισμός της πολλαπλής παλινδρόμησης στο SPSS φαίνεται στο Video 5.2.

Video5.2 Βίντεο

Υπολογισμός πολλαπλής παλινδρόμησης

7 Αυτό οφείλεται πιθανά στο γεγονός ότι στα δεδομένα περιλαμβάνεται μεγάλος αριθμός νεόκτιστων κατοικιών με

αποτέλεσμα να διαστρεβλώνεται η γραμμική σχέση.

Page 26: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

165

5.3.6 Επιλογή των ανεξάρτητων μεταβλητών στην πολλαπλή παλινδρόμηση

Οι μεταβλητές που χρησιμοποιούνται στην ανάλυση παλινδρόμησης είναι κατά κύριο λόγο ποσοτικές

μεταβλητές. Ποιοτικές μεταβλητές, στην ονομαστική ή την ιεραρχική κλίμακα, γενικά δεν χρησιμοποιούνται.

Ορισμένες φορές όμως είναι σημαντικό να περιληφθούν και ποιοτικές μεταβλητές στο μοντέλο. Για

παράδειγμα, μπορεί να θεωρούμε ότι η ύπαρξη θέσης στάθμευσης είναι πολύ σημαντικός παράγοντας που

επηρεάζει την αξία των κατοικιών, ιδιαίτερα σε πυκνοκατοικημένες αστικές περιοχές. Η μεταβλητή αυτή

λαμβάνει τις τιμές «ναι» και «όχι» είναι δηλαδή δυαδική. Αν αντιστοιχήσουμε την τιμή 1 στο ναι και την τιμή

0 στο «ΟΧΙ», μπορεί να περιλάβουμε τη μεταβλητή αυτή στην ανάλυση ως ψευδομεταβλητή (dummy

variable). Αν η ποιοτική μεταβλητή π.χ. οι χρήσεις γης έχει περισσότερες από μία κατηγορίες (k),

δημιουργούμε k-1 ψευδομεταβλητές αφαιρώντας μία κατηγορία (Rogerson, 2006). Η ερμηνεία όμως των

αποτελεσμάτων χρειάζεται πολύ καλή μελέτη του προβλήματος.

Η επιλογή των ανεξάρτητων μεταβλητών σε μια πολλαπλή παλινδρόμηση δεν είναι απλή διαδικασία

όταν έχουμε στη διάθεσή μας μεγάλο αριθμό μεταβλητών. Σε τέτοιες περιπτώσεις η διερεύνηση με τις

επιμέρους απλές παλινδρομήσεις θα σήμαινε πολύ μεγάλο αριθμό δοκιμών. Γενικά πρέπει να υπάρχει μια

ερευνητική υπόθεση, η οποία θα μας καθοδηγεί στη δόμηση του μοντέλου και όχι απλά να διαπιστώνουμε αν

προκύπτουν υψηλές συσχετίσεις, γιατί αυτό όπως είδαμε μπορεί να είναι παραπλανητικό. Σε περιπτώσεις

όμως που θέλουμε να διερευνήσουμε τα δεδομένα και να σχηματίσουμε ερευνητικές υποθέσεις έχουν

αναπτυχθεί μέθοδοι που είναι διαθέσιμες στα λογισμικά στατιστικής ανάλυσης.

Η πρώτη μέθοδος είναι η μέθοδος της προοδευτικής προσθήκης μεταβλητών (forward selection). Στη

μέθοδο αυτή, ξεκινάμε με ένα μοντέλο που δεν έχει καμία μεταβλητή και στη συνέχεια προσθέτουμε κάθε

φορά από μία μεταβλητή που έχει σημαντική συνεισφορά στο μοντέλο. Η πρώτη μεταβλητή είναι αυτή που

έχει την υψηλότερη συσχέτιση με την εξαρτημένη μεταβλητή και στη συνέχεια επιλέγονται κατά σειρά

σημαντικότητας οι επόμενες μεταβλητές. Η αντίθετη διαδικασία ακολουθείται από τη μέθοδο αποκλεισμού

μεταβλητών (backward selection), δηλαδή ξεκινάμε περιλαμβάνοντας όλες τις μεταβλητές στο μοντέλο και σε

κάθε βήμα αποκλείεται μία μεταβλητή, που δεν έχει σημαντική συνεισφορά σε αυτό. Η πρώτη μεταβλητή που

αφαιρείται είναι αυτή με το μικρότερο R2 (της απλής παλινδρόμησης), εφόσον δεν συνεπάγεται σημαντική

μείωση του R2 της πολλαπλής παλινδρόμησης. Η διαδικασία συνεχίζεται έως ότου η αφαίρεση μεταβλητών

συνεπάγεται σημαντική μείωση του R2. Η διαδικασία της βηματικής παλινδρόμησης (stepwise regression)

είναι παρόμοια με τη μέθοδο της προοδευτικής προσθήκης μεταβλητών. Όμως σε κάθε βήμα ελέγχεται αν οι

μεταβλητές οι οποίες έχουν ήδη προστεθεί είναι ακόμα σημαντικές (Κίτσος, 1995· Πανάρετος, 1994·

Rogerson, 2006).

5.3.7 Άλλες μορφές παλινδρόμησης

Όπως αναφέρθηκε στα προηγούμενα, εκτός από τις γραμμικές σχέσεις υπάρχει και μια μεγάλη ποικιλία

καμπυλόγραμμων σχέσεων. Ορισμένες από αυτές μπορούν να μετατραπούν σε σχέσεις σε ευθεία γραμμή,

οπότε διευκολύνεται και η προσαρμογή του μοντέλου της παλινδρόμησης που είδαμε στις προηγούμενες

ενότητες. Μια συνήθης μετατροπή είναι με τη χρήση λογαρίθμων στις μεταβλητές ή τις παραμέτρους των

μοντέλων. Ορισμένες χαρακτηριστικές περιπτώσεις οι οποίες έχουν εφαρμογές σε γεωγραφικά προβλήματα

είναι οι εξής (Shaw & Wheeler, 2000):

Το εκθετικό μοντέλο έχει τη γενική μορφή Υ= aebΧ

. Μια μορφή του εκθετικού μοντέλου είναι το

αρνητικό εκθετικό μοντέλο το οποίο είδαμε στην ενότητα 5.2.2. Το εκθετικό μοντέλο μπορεί να μετατραπεί

σε γραμμικό με τον λογάριθμο της Υ:

lnY = lna + bX

Ισχύει δηλαδή ότι ο φυσικός λογάριθμος της μεταβλητής Υ συνδέεται γραμμικά με την ανεξάρτητη

μεταβλητή Χ. Οι παράμετροι της εξίσωσης είναι lna και b και εκτιμώνται με τη μέθοδο των ελαχίστων

τετραγώνων.

Η καμπύλη η οποία ορίζεται από τη γενική συνάρτηση Y=aXb είναι πολύ σημαντική στη

γεωμορφολογία και την υδρολογία και μπορεί να μετατραπεί σε ευθεία γραμμή λογαριθμώντας και τις δύο

μεταβλητές Χ και Y:

Page 27: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

166

logY =loga + blogX

Μια άλλη περίπτωση παλινδρόμησης είναι όταν η εξαρτημένη μεταβλητή είναι κατηγορική και

δυαδική, λαμβάνει δηλαδή δύο τιμές 0 και 1, οπότε το μοντέλο ονομάζεται λογιστική παλινδρόμηση (logistic

regression). Για απαριθμήσεις ή αναλογίες στην εξαρτημένη μεταβλητή, όπως είναι για παράδειγμα η

συχνότητα εμφάνισης μιας ασθένειας, χρησιμοποιoύνται τα μοντέλα της παλινδρόμησης Poisson (Poisson

regression). Και τα δύο μοντέλα ανήκουν στην ομάδα των γενικευμένων γραμμικών μοντέλων (generalized

linear models) που αποτελούν γενίκευση της μεθόδου των ελαχίστων τετραγώνων (O’Brien, 1992).

Στο SPSS είναι διαθέσιμα αρκετά μοντέλα προσαρμογής καμπυλών στο μενού Curve estimation,

όπου περιλαμβάνονται πολυώνυμα δεύτερης και τρίτης τάξης, λογαριθμικές και εκθετικές συναρτήσεις κλπ.

Επίσης υπάρχει η δυνατότητα επίλυσης λογιστικής παλινδρόμησης και παλινδρόμησης Poisson.

5.3.8 Ανάλυση καταλοίπων

Όπως ήδη έχει αναφερθεί στην ενότητα 5.3.4 μία από τις παραδοχές για την ανάλυση παλινδρόμησης είναι

ότι τα κατάλοιπα είναι ανεξάρτητα, δηλαδή η τιμή του σφάλματος για μία παρατήρηση δεν εξαρτάται από την

τιμή του σφάλματος για μία άλλη παρατήρηση. Η παραδοχή αυτή συνήθως παραβιάζεται στην ανάλυση των

γεωγραφικών φαινομένων λόγω της συνέχειας του γεωγραφικού χώρου και του φαινομένου της χωρικής

αυτοσυσχέτισης.

Στη Γεωγραφική Ανάλυση τα κατάλοιπα της παλινδρόμησης αποτελούν αντικείμενο ανάλυσης

προκειμένου να διαπιστωθεί αν ακολουθούν κάποιο χωρικό πρότυπο. Με τον τρόπο αυτό μπορούμε να

διαπιστώσουμε κατά πόσο υπάρχει κάποιο χαρακτηριστικό των περιπτώσεων που αναλύονται, το οποίο δεν

έχει ληφθεί υπόψη στην ανάλυση παλινδρόμησης, οπότε είναι πιθανό να εντοπιστεί μια νέα ανεξάρτητη

μεταβλητή η οποία ίσως δεν βρίσκεται στα αρχικά δεδομένα και μπορεί να βελτιώσει την ερμηνευτική

ικανότητα του μοντέλου. Η ανάλυση των καταλοίπων γίνεται αρχικά με τη χαρτογράφησή τους.

Στον Χάρτη 5.1 παρουσιάζονται τα κατάλοιπα της πολλαπλής παλινδρόμησης του παραδείγματος

5.5. Τα κατάλοιπα στο παράδειγμα αυτό, δεν είναι δυνατό να χαρτογραφηθούν απευθείας επειδή δεν είναι

γνωστή η ακριβής θέση των κατοικιών, αλλά μόνο ο δήμος στον οποίο ανήκουν. Προκειμένου να γίνει η

χαρτογράφηση υπολογίστηκε το μέσο κατάλοιπο για κάθε δήμο της περιοχής μελέτης. Στον Χάρτη 5.1

παρατηρούμε ότι τα μεγαλύτερα θετικά κατάλοιπα εμφανίζονται σε ορισμένους δήμους στα βόρεια και νότια

προάστια της Αττικής που είναι τα ακριβότερα (βλ. και Χάρτη 3.2). Επομένως στους δήμους αυτούς

παρατηρείται υποεκτίμηση της αξίας των κατοικιών από το μοντέλο της παλινδρόμησης. Αντίθετα τα

μεγαλύτερα αρνητικά κατάλοιπα εμφανίζονται σε ορισμένα δυτικά προάστια, όπου οι τιμές των ακινήτων

είναι γενικά χαμηλότερες. Φαίνεται ότι υπάρχει μια γεωγραφική διάσταση στην κατανομή των καταλοίπων

που αντανακλά τη γεωγραφική διαφοροποίηση στις αξίες των ακινήτων, αλλά διαπιστώνονται και εξαιρέσεις

ως προς το χωρικό πρότυπο που γενικά παρατηρείται, υπάρχουν για παράδειγμα δήμοι όπως ο Δ. Πεντέλης

όπου οι αξίες είναι υψηλές και το κατάλοιπο αρνητικό.

Δεν αρκεί όμως να παρατηρούμε έναν χάρτη για να εξακριβώσουμε κατά πόσο υπάρχει συγκέντρωση

ενός φαινομένου στον γεωγραφικό χώρο, αλλά πρέπει να είμαστε σε θέση να παρουσιάσουμε κάποια

μέτρηση. Αν το παρατηρούμενο χωρικό πρότυπο είναι τυχαίο ή συγκεντρωμένο μπορεί να μετρηθεί με τους

συντελεστές χωρικής αυτοσυσχέτισης που θα παρουσιαστούν παρακάτω, και με βάση αυτή τη μέτρηση

προκύπτει ότι το χωρικό πρότυπο του Χάρτη 5.1 είναι συγκεντρωμένο.

Εξάλλου, έχουμε αναφέρει ότι ο παράγοντας «θέση» που είναι ίσως ο σημαντικότερος για την αξία

των κατοικιών δεν έχει περιληφθεί στην παλινδρόμηση, επειδή ο δήμος ή η περιοχή είναι ποιοτικές

μεταβλητές. Στις επόμενες ενότητες, θα εξετάσουμε πώς μπορούμε να βελτιώσουμε τα αποτελέσματα της

παλινδρόμησης λαμβάνοντας υπόψη τη συνέχεια του γεωγραφικού χώρου με τη μελέτη της χωρικής

παλινδρόμησης.

5.4 Στοιχεία Χωρικής Στατιστικής

Όπως έχει αναφερθεί στις προηγούμενες ενότητες, το γεγονός ότι ορισμένες παραδοχές της κλασικής

Στατιστικής δεν ισχύουν στην ανάλυση των γεωγραφικών φαινομένων έχει οδηγήσει στην ανάπτυξη

στατιστικών μεθόδων ειδικά για γεωγραφικά προβλήματα. Παρόλο που οι ιδιαιτερότητες των γεωγραφικών

φαινομένων έχουν εντοπιστεί και αναλυθεί εδώ και πολλές δεκαετίες, με την ανάπτυξη των GIS έχει γίνει

Page 28: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

167

δυνατή η εφαρμογή κατάλληλων μεθόδων οι οποίες χρησιμοποιούν χαρτογραφικά δεδομένα. Οι μέθοδοι

αυτές αποτελούν επέκταση των κλασικών στατιστικών μεθόδων και λειτουργούν σε περιβάλλον GIS. Το

επιστημονικό αυτό πεδίο είναι σχετικά νέο και αναπτυσσόμενο και συνεχώς νέες στατιστικές μέθοδοι

εντάσσονται στη λειτουργία των GIS, οι οποίες δεν ήταν διαθέσιμες πριν μερικά χρόνια. Στο Κεφάλαιο 2

παρουσιάστηκαν εφαρμογές της χωρικής δειγματοληψίας και στο Κεφάλαιο 3 τα μέτρα χωρικής

κεντρικότητας και διασποράς. Όμως η μέθοδος η οποία έχει μελετηθεί περισσότερο για την εφαρμογή της σε

χωρικά δεδομένα είναι η ανάλυση παλινδρόμησης. Η προσαρμογή της κλασικής8 παλινδρόμησης για χωρικά

δεδομένα στηρίζεται στη μέτρηση της χωρικής αυτοσυσχέτισης και αναφέρεται με τον γενικό όρο χωρική

παλινδρόμηση (spatial regression).

Χάρτης 5.1 Κατάλοιπα παλινδρόμησης

5.4.1 Η Έννοια της Χωρικής Αυτοσυσχέτισης

Όπως έχει ήδη αναφερθεί στο Κεφάλαιο 1, η χωρική αυτοσυσχέτιση (spatial autocorrelation) είναι ένας όρος

ο οποίος υποδηλώνει το προφανές γεγονός ότι τα δεδομένα από τοποθεσίες που βρίσκονται κοντά στον

γεωγραφικό χώρο είναι πιθανότερο να έχουν περισσότερες ομοιότητες μεταξύ τους σε σχέση με δεδομένα τα

οποία προέρχονται από μακρινές τοποθεσίες. Αναφέρθηκε επίσης και ο πρώτος νόμος της Γεωγραφίας:

Toblers Law (1970) «Everything is related to everything else, but near things are more related than distant

things» «Όλα τα πράγματα συνδέονται μεταξύ τους αλλά τα κοντινά συνδέονται περισσότερο απ’ ότι τα

μακρινά». Για παράδειγμα αναμένουμε γειτονικές περιοχές να έχουν παρόμοιο υψόμετρο και γειτονικές

κατοικίες παρόμοια τιμή ανά τ.μ. Έχουν προταθεί αρκετοί ορισμοί της χωρικής αυτοσυσχέτισης (Getis,

2008), αλλά ένας απλός ορισμός είναι ότι αποτελεί τη συσχέτιση μιας μεταβλητής με τον εαυτό της σε έναν

8 Με τον όρο κλασικό μοντέλο παλινδρόμησης εννοείται αυτό που αναπτύχθηκε στις προηγούμενες ενότητες και αφορά

τον υπολογισμό με τη μέθοδο των ελαχίστων τετραγώνων.

Page 29: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

168

γεωαναφερμένο χώρο, αφού έχει οριστεί κάποιο μέτρο γεωγραφικής εγγύτητας μεταξύ των γεωγραφικών

μονάδων της περιοχής μελέτης9.

Αν για παράδειγμα γνωρίζουμε ότι σε ένα σημείο X το υψόμετρο είναι 150μ., τότε σε ένα σημείο Y

το οποίο απέχει 10μ από το Χ, το υψόμετρο δεν μπορεί να διαφέρει πολύ και θα βρίσκεται με μεγάλη

πιθανότητα στο εύρος 145-155μ. Προφανώς θα μπορούσε να υπάρχει μια απότομη μεταβολή της

μορφολογίας του εδάφους μεταξύ των δύο σημείων και το σημείο Y να είχε υψόμετρο 350μ. αλλά αυτό δεν

είναι πιθανό. Ένα σημείο όμως Z, το οποίο απέχει 1000μ από το σημείο X, θα μπορούσε να έχει υψόμετρο

500μ. ή και περισσότερο. Υπάρχει αβεβαιότητα για το υψόμετρο του Z επειδή είναι μακριά από το Χ. Αν η

απόσταση του Z δεν είναι 1000μ. αλλά 100χλμ. τότε το υψόμετρο του X δεν μπορεί να μας δώσει καμία

πληροφορία για το υψόμετρο του Z.

Η ιδιότητα της χωρικής αυτοσυσχέτισης βρίσκεται στο επίκεντρο της ανάλυσης των γεωγραφικών

φαινομένων, δεδομένου ότι αναζητούμε χωρικά πρότυπα (spatial patterns) και τις διαδικασίες που τα

προκαλούν. Το αποτέλεσμα είναι ότι τα δείγματα τα οποία λαμβάνονται από χωρικά δεδομένα δεν είναι στην

πραγματικότητα τυχαία, όπως υποθέτει η κλασική στατιστική ανάλυση.

Η μελέτη της αυτοσυσχέτισης είναι ιδιαίτερα σημαντική όταν εξετάζουμε χωρικά πρότυπα. Για

παράδειγμα στον Χάρτη 5.1 παρουσιάστηκε η χαρτογράφηση των καταλοίπων της παλινδρόμησης και

παρατηρήσαμε κάποιες συγκεντρώσεις αρνητικών και θετικών καταλοίπων σε ορισμένες περιοχές. Με την

ανάλυση της αυτοσυσχέτισης μπορούμε να απαντήσουμε στο ερώτημα αν αυτό το χωρικό πρότυπο υπάρχει

στην πραγματικότητα, δηλαδή ισχύει και για τον στατιστικό πληθυσμό, ή δεν διαφέρει σημαντικά από ένα

τυχαίο χωρικό πρότυπο.

Η χωρική αυτοσυσχέτιση μπορεί να μετρηθεί για όλους τους τύπους χωρικών δεδομένων, σημεία,

γραμμές, πολύγωνα και φατνία, αν και συνηθέστερες είναι οι εφαρμογές για πολύγωνα και σημεία.

Η χωρική αυτοσυσχέτιση μπορεί να είναι θετική ή αρνητική. Στο σχήμα 5.1 παρουσιάζονται

θεωρητικά σχήματα θετικής αυτοσυσχέτισης, απουσίας αυτοσυσχέτισης και αρνητικής αυτοσυσχέτισης. Η

θετική αυτοσυσχέτιση σημαίνει ότι οι γειτονικές περιοχές έχουν παρόμοιες τιμές και για τον λόγο αυτό στο

πρώτο τμήμα του Σχήματος 5.1 τα πράσινα και τα λευκά φατνία σχηματίζουν ζώνες. Η αρνητική

αυτοσυσχέτιση σημαίνει ότι οι γειτονικές περιοχές έχουν διαφορετικές ιδιότητες και οι υψηλές τιμές

συνορεύουν με χαμηλές τιμές, οπότε τα λευκά και τα πράσινα φατνία εναλλάσσονται για την αρνητική

αυτοσυσχέτιση. Η έλλειψη αυτοσυσχέτισης σημαίνει ότι το παρατηρούμενο χωρικό πρότυπο είναι τυχαίο.

Στην πραγματικότητα τα παρατηρούμενα χωρικά πρότυπα είναι πολύπλοκα και χρειάζεται να χρησιμοποιηθεί

κάποιο μέτρο χωρικής αυτοσυσχέτισης για να διαπιστώσουμε την ύπαρξή της.

Σχήμα 5.1 Χωρική αυτοσυσχέτιση

5.4.2 Χωρικά βάρη

Η χωρική αυτοσυσχέτιση εξετάζει τις ομοιότητες ή τις διαφορές στις τιμές κάποιου χαρακτηριστικού σε

διαφορετικές θέσεις ανάλογα με την απόσταση των θέσεων μεταξύ τους. Πρέπει δηλαδή να προσδιοριστεί τι

σημαίνει «κοντά» ή αλλιώς πώς θα ορίσουμε τη γειτνίαση στον γεωγραφικό χώρο.

9 Υπάρχει και η έννοια της χρονικής αυτοσυσχέτισης, όταν η μεταβλητή συσχετίζεται με τον εαυτό της μετά από ένα

χρονικό διάστημα

Page 30: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

169

Για τη μέτρηση της χωρικής αυτοσυσχέτισης χρησιμοποιείται ένας πίνακας χωρικών βαρών (spatial

weights matrix) ο οποίος συμβολίζεται με W (Πίνακας 5.9). Ο πίνακας αυτός απεικονίζει τη γεωμετρική δομή

του γεωγραφικού χώρου και για κάθε θέση υπολογίζεται (με διάφορα κριτήρια) ο αριθμός των γειτονικών

θέσεων. Οι όροι wij είναι τα χωρικά βάρη (spatial weights) και απεικονίζουν τη σχέση στον χώρο μεταξύ των

θέσεων i και j. Για παράδειγμα ο όρος w12 απεικονίζει τη σχέση μεταξύ της πρώτης και δεύτερης θέσης στο

χάρτη. Η σειρά των θέσεων στον πίνακα των χωρικών βαρών είναι αυθαίρετη αλλά είναι η ίδια στις γραμμές

και τις στήλες. Τα στοιχεία της διαγωνίου του πίνακα συνήθως είναι μηδενικά, δηλαδή w11=0, w22=0 κλπ.,

επειδή δεν μας ενδιαφέρει η σχέση μεταξύ μιας θέσης με τον εαυτό της. Επίσης ο πίνακας των χωρικών

βαρών είναι συνήθως συμμετρικός, δηλαδή wij = wji, i=1,2,…n.

Πίνακας 5.9 Πίνακας χωρικών βαρών

Οι τιμές των wij μπορεί να οριστούν με διαφορετικά κριτήρια και στην πραγματικότητα αποτελούν

μια υπόθεση για το πρόβλημα που μελετάμε (O’ Sullivan & Unwin, 2010). Η απλούστερη κατηγορία

χωρικών βαρών στηρίζεται στη γειτνίαση των πολυγώνων μεταξύ τους, αν δηλαδή τα πολύγωνα είναι

γειτονικά wij=1, ενώ αν δεν είναι wij=0. Η γειτνίαση μπορεί να αφορά μόνο κοινά όρια πολυγώνων, οπότε το

κριτήριο ονομάζεται Rook ή να αφορά επιπλέον και τις κοινές γωνίες των πολυγώνων ως γειτνίαση, οπότε το

κριτήριο ονομάζεται Queen. Το κριτήριο Queen περιλαμβάνει περισσότερες γειτνιάσεις σε σχέση με το Rook.

Στο Σχήμα 5.2 παρουσιάζεται η γειτνίαση των πολυγώνων με το κριτήριο Queen. Οι άμεσοι γείτονες με τα

παραπάνω κριτήρια θεωρούνται 1ης

τάξης. Μπορεί όμως να χρησιμοποιηθούν και 2ης

τάξης γείτονες οι οποίοι

είναι γείτονες υπερπηδώντας ένα πολύγωνο. Για παράδειγμα στον Χάρτη 5.1 ο Δήμος Βάρης-Βούλας-

Βουλιαγμένης είναι 1ης

τάξης γείτονας με τον Δήμο Γλυφάδας και 2ης

τάξης γείτονας με τον Δήμο Ελληνικού-

Αργυρούπολης. Με τον τρόπο αυτό θεωρείται ότι η ομοιότητα π.χ. στην αξία των κατοικιών δεν εξαντλείται

στους άμεσα γειτονικούς δήμους, αλλά περιλαμβάνει και τους γείτονες αυτών.

Ο δεύτερος βασικός τρόπος ορισμού των χωρικών βαρών είναι η μέτρηση της απόστασης μεταξύ

γεωγραφικών οντοτήτων, καταρχήν σημείων. Στην περίπτωση πολυγώνων ή γραμμών μετράται η απόσταση

από τα κεντροειδή τους. Υπάρχουν αρκετοί τρόποι με τους οποίους η απόσταση χρησιμοποιείται στον ορισμό

των χωρικών βαρών.

Ένας τρόπος είναι να οριστεί μια απόσταση μέχρι την οποία θεωρούμε ότι οι γεωγραφικές οντότητες

γειτνιάζουν και πέρα από την οποία δεν γειτνιάζουν. Όσο μεγαλύτερη η απόσταση τόσο περισσότερες είναι οι

γειτονικές οντότητες. Εφόσον τα χωρικά βάρη ορίζονται σε ένα GIS, πρέπει να δίνεται προσοχή στις μονάδες

μέτρησης του συστήματος συντεταγμένων του χάρτη, ώστε να μην οριστεί είτε πολύ μικρή είτε πολύ μεγάλη

απόσταση ως κριτήριο γειτνίασης.

Εναλλακτικά, θα μπορούσε να χρησιμοποιηθεί μια συνάρτηση, ώστε ανάλογα με την απόσταση να

μικραίνει η επίδραση μιας γεωγραφικής οντότητας σε μία άλλη. Συνήθεις επιλογές είναι η αντίστροφη

απόσταση (inverse distance) ή η αντίστροφη απόσταση στο τετράγωνο (1/d2). Στην περίπτωση αυτή τα

χωρικά βάρη παίρνουν τιμές στο διάστημα 0 έως 1, όπου 0 είναι απουσία αλληλεπίδρασης και 1 ισχυρή

αλληλεπίδραση.

Συνήθως γίνεται στάθμιση των χωρικών βαρών ώστε το άθροισμα των βαρών σε κάθε γραμμή του

πίνακα να ισούται με 1 (row standardization).

Page 31: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

170

Σχήμα 5.2 Τα γειτονικά πολύγωνα ενός επιλεγμένου πολυγώνου

5.4.3 Συντελεστής Χωρικής Αυτοσυσχέτισης Moran

Αφού έχει απεικονιστεί η δομή της περιοχής μελέτης με την κατασκευή του πίνακα των χωρικών βαρών

μπορούμε να μετρήσουμε τη χωρική αυτοσυσχέτιση. Το πιο διαδεδομένο μέτρο της χωρικής αυτοσυσχέτισης

είναι ο συντελεστής I του Moran (Moran’s Ι), ο οποίος δείχνει κατά πόσο η χωρική κατανομή που

παρατηρούμε παρουσιάζει μη τυχαία κατανομή στον γεωγραφικό χώρο, αν δηλαδή παρουσιάζει συγκέντρωση

(cluster).

Ο μαθηματικός τύπος για τον υπολογισμό του συντελεστή Moran για μια μεταβλητή Υ είναι:

n

j

ij

n

i

n

j

jiij

n

i

n

i

i w

YyYyw

Yy

nI

11

11

1

2

όπου

n είναι ο αριθμός των γεωγραφικών οντοτήτων (σημεία, περιφέρειες κλπ.)

wij είναι το χωρικό βάρος για τις οντότητες i και j και

n

j

ij

n

i

w11

αποτελεί το άθροισμα όλων των γειτνιάσεων στον χάρτη, όλων δηλαδή των ζευγών των

γεωγραφικών οντοτήτων.

Page 32: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

171

Στο δεύτερο τμήμα αυτού του τύπου παρατηρούμε ότι ο αριθμητής περιλαμβάνει έναν όρο

συνδιακύμανσης:

Οι δείκτες i και j αφορούν δύο διαφορετικές γεωγραφικές οντότητες (πολύγωνα, σημεία κλπ.) και yi,

yj είναι οι τιμές της ίδιας μεταβλητής για τις δύο αυτές γεωγραφικές οντότητες. Αν και οι δύο τιμές yi και yj

είναι πάνω ή κάτω από τον αριθμητικό μέσο το γινόμενο των αποκλίσεων είναι θετικό.

Κάθε από αυτά τα γινόμενα πολλαπλασιάζεται με το αντίστοιχο χωρικό βάρος από τον πίνακα των χωρικών

βαρών που έχει δημιουργηθεί. Αν για παράδειγμα δύο πολύγωνα γειτνιάζουν, τότε wij =1 και το γινόμενο των

αποκλίσεων διατηρεί την τιμή του, αν όμως wij =0, μηδενίζεται. Αν τα περισσότερα γινόμενα των αποκλίσεων

γειτονικών οντοτήτων έχουν θετικό πρόσημο η αυτοσυσχέτιση είναι θετική, διαφορετικά θα είναι αρνητική.

Οι υπόλοιποι όροι στον μαθηματικό τύπο του συντελεστή αυτοσυσχέτισης Moran I, χρησιμεύουν για

να ρυθμίζουν την τελική τιμή του συντελεστή στο διάστημα των τιμών [-1,+1]. Επειδή σε έναν χάρτη είναι

δύσκολο να ισχύσει τέλεια αυτοσυσχέτιση, ακόμα και τιμές του συντελεστή στην περιοχή του 0,3 θεωρούνται

ως σχετικά ισχυρή αυτοσυσχέτιση.

Ο στατιστικός έλεγχος του συντελεστή Moran I δεν γίνεται με τους συνήθεις στατιστικούς ελέγχους

αλλά με τη διαδικασία ελέγχων τυχαιοποίησης που περιγράφηκε στην ενότητα 4.3.4. Στη διαδικασία αυτή, οι

τιμές της μεταβλητής Υ που παρατηρούνται στον χάρτη ανακατανέμονται τυχαία στις γεωγραφικές οντότητες

και υπολογίζεται κάθε φορά ο συντελεστής Moran. Συνήθως γίνονται 999 δοκιμές με αντίστοιχες μεταθέσεις

σύμφωνα με τη θεωρία της συνδυαστικής, ώστε το αποτέλεσμα να αξιολογείται με πιθανότητα p=0,001. Με

τον τρόπο αυτό, προκύπτει μια εμπειρική δειγματοληπτική κατανομή, με βάση την οποία κρίνεται αν η τιμή

του συντελεστή Moran που υπολογίστηκε από τα δεδομένα είναι αρκετά σπάνια, σε σχέση με τα

αποτελέσματα των τυχαίων κατανομών. Αν η παρατηρούμενη τιμή του Moran απέχει σημαντικά από τη μέση

τιμή της εμπειρικής δειγματοληπτικής κατανομής, το αποτέλεσμα θεωρείται στατιστικά σημαντικό.

Στην εικόνα 5.1 φαίνεται ένα διάγραμμα που παρουσιάζει τον συντελεστή Moran I όπως έχει

υπολογιστεί στο ArcGIS για τη μεταβλητή ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ (Video 5.3). H μεταβλητή αυτή έχει προκύψει

από τις 800 κατοικίες του Ν. Αττικής υπολογίζοντας τη μέση αξία για κάθε δήμο. Η τιμή του Moran είναι

Ι=0,51 και είναι στατιστικά σημαντικός σε επίπεδο σημαντικότητας 1%. Τα αποτελέσματα υποδεικνύουν ότι

το χωρικό πρότυπο είναι συγκεντρωμένο (clustered) και η πιθανότητα να οφείλεται σε τυχαίους παράγοντες

είναι μικρότερη από 1%.

Πρέπει να σημειωθεί ότι αν χρησιμοποιηθεί διαφορετικό κριτήριο χωρικών βαρών (π.χ. κριτήριο

απόστασης και όχι κριτήριο γειτνίασης πολυγώνων) θα προκύψει διαφοροποίηση της τιμής του συντελεστή

Moran.

Εκτός από τον συντελεστή Moran I, επίσης σημαντικός είναι ο συντελεστής αυτοσυσχέτισης Gearys

C. Και οι δύο συντελεστές χρησιμοποιούν ποσοτικά δεδομένα, αλλά έχουν αναπτυχθεί και κάποια μέτρα

αυτοσυσχέτισης για ποιοτικά δεδομένα (O’ Sullivan & Unwin, 2010).

5.4.4 Χωρική παλινδρόμηση

Η χωρική παλινδρόμηση (spatial regression) αποτελεί την προσαρμογή του κλασικού μοντέλου της

παλινδρόμησης για την ανάλυση χωρικών δεδομένων. Στηρίζεται στην έννοια της χωρικής αυτοσυσχέτισης

και επιλύεται σε περιβάλλον GIS. Αποτελεί μια σχετικά πρόσφατη εξέλιξη στη Γεωγραφική Ανάλυση και

θεωρείται σημαντική καινοτομία στην ανάλυση των γεωγραφικών δεδομένων. Τα κλασικά μοντέλα

παλινδρόμησης δεν λαμβάνουν υπόψη τη γεωγραφική διάσταση των φαινομένων, ότι δηλαδή η ανάλυση

γίνεται σε γεωγραφικές περιοχές ή σημεία που γειτνιάζουν μεταξύ τους, και λόγω της συνέχειας του

γεωγραφικού χώρου οι τιμές γειτονικών περιοχών είναι αναμενόμενο να έχουν ομοιότητες. Τα τελευταία

χρόνια έχουν αναπτυχθεί τεχνικές παλινδρόμησης που λαμβάνουν υπόψη την χωρική αυτοσυσχέτιση και τη

δομή του γεωγραφικού χώρου και έχουν οδηγήσει σε μια οικογένεια μοντέλων χωρικής παλινδρόμησης (de

Smith, Goodchild, & Longley, 2015).

Page 33: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

172

Εικόνα 5.1 Συντελεστής αυτοσυσχέτισης Moran I (ArcGIS)

Video 5.3 Βίντεο

Υπολογισμός συντελεστή χωρικής αυτοσυσχέτισης Moran I

Μια βασική παραδοχή στην ανάλυση παλινδρόμησης με τη μέθοδο των ελαχίστων τετραγώνων είναι

ότι τα κατάλοιπα είναι ανεξάρτητα και έχουν την ίδια κατανομή. Η παραδοχή αυτή συνήθως δεν ισχύει στην

ανάλυση γεωγραφικών φαινομένων, λόγω της ύπαρξης της χωρικής αυτοσυσχέτισης. Η χαρτογράφηση των

καταλοίπων στις περισσότερες περιπτώσεις καταλήγει σε ένα χωρικό πρότυπο υποδηλώνοντας την ύπαρξη

της αυτοσυσχέτισης και το μοντέλο της παλινδρόμησης δεν είναι σωστά προσδιορισμένο (misspecified). Στον

Χάρτη 5.1 παρατηρήσαμε συγκεντρώσεις των θετικών καταλοίπων στις πιο ακριβές περιοχές για τις οποίες το

κλασικό μοντέλο της παλινδρόμησης έκανε υποεκτίμηση της αξίας των κατοικιών και συγκεντρώσεις των

αρνητικών καταλοίπων στις φθηνότερες περιοχές. Για την εκτίμηση της αξίας των ακινήτων η θέση αποτελεί

ίσως τον σημαντικότερο παράγοντα, και στην κλασική παλινδρόμηση δεν μπορεί να περιληφθεί ως

ανεξάρτητη μεταβλητή, επειδή είναι στην ονομαστική κλίμακα μέτρησης.

Ένας τρόπος να αντιμετωπιστεί το παραπάνω πρόβλημα θα ήταν να υπολογίσουμε το μοντέλο της

κλασικής παλινδρόμησης για κάθε δήμο ξεχωριστά, οπότε για κάθε δήμο θα προέκυπταν διαφορετικές

παράμετροι του μοντέλου. Η επιλογή αυτή, παρά τη χρησιμότητά της, αντιμετωπίζει τον χώρο ως

αποτελούμενο από ανεξάρτητες γεωγραφικές ενότητες, δεν λαμβάνει δηλαδή υπόψη τη χωρική

αυτοσυσχέτιση.

Για να ληφθεί υπόψη η χωρική αυτοσυσχέτιση, μπορεί να περιληφθούν στο μοντέλο της

παλινδρόμησης, ως ανεξάρτητη μεταβλητή, οι τιμές της μεταβλητής Υ (αλλά και της Χ) για τις γειτονικές

γεωγραφικές οντότητες κάθε παρατήρησης ή να δομηθεί το μοντέλο με τέτοιο τρόπο ώστε να μεταβάλλονται

οι παράμετροι a και b στον γεωγραφικό χώρο (Rogerson, 2006).

Page 34: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

173

Αυτές οι δύο επιλογές έχουν οδηγήσει σε δύο διαφορετικές προσεγγίσεις στη μέθοδο της χωρικής

παλινδρόμησης. Εφαρμόζονται όταν διαπιστώνεται χωρική εξάρτηση στα κατάλοιπα και συνήθως δίνουν

ακριβέστερα αποτελέσματα σε σχέση με την κλασική παλινδρόμηση. Οι μέθοδοι της χωρικής παλινδρόμησης

τα τελευταία χρόνια υπολογίζονται με σχετικά λογισμικά σε περιβάλλον GIS.

Στην πρώτη προσέγγιση της χωρικής παλινδρόμησης προστίθενται νέες μεταβλητές οι οποίες

υπολογίζονται από τις υπάρχουσες μεταβλητές. Για μια επιλεγμένη γεωγραφική οντότητα, η τιμή της νέας

ανεξάρτητης μεταβλητής υπολογίζεται από τις τιμές των μεταβλητών στις γειτονικές θέσεις, με χωρική

υστέρηση (spatial lag), δηλαδή μετά από κάποια απόσταση ή για έναν αριθμό γειτονικών πολυγώνων. Στην

περίπτωση αυτή υπολογίζεται μία εξίσωση παλινδρόμησης για όλη την περιοχή μελέτης, έχοντας όμως λάβει

υπόψη την χωρική αυτοσυσχέτιση.

Στην απλούστερη περίπτωση του μοντέλου αυτού προστίθεται μία ανεξάρτητη μεταβλητή η οποία

υπολογίζεται από τις τιμές της εξαρτημένης μεταβλητής για τις γειτονικές θέσεις της επιλεγμένης

γεωγραφικής οντότητας. Στο παράδειγμα του Χάρτη 5.1 για τον Δήμο Γλυφάδας, θα μπορούσε να περιληφθεί

ως τιμή της νέας ανεξάρτητης μεταβλητής ο αριθμητικός μέσος της αξίας των κατοικιών για τους γειτονικούς

δήμους Βάρης-Βούλας-Βουλιαγμένης και Ελληνικού-Αργυρούπολης, δηλαδή μπορούμε να προβλέψουμε την

αξία των κατοικιών στη Γλυφάδα αν γνωρίζουμε την αξία των κατοικιών στους γειτονικούς δήμους. Η

μέθοδος υπολογισμού των μοντέλων αυτών έχει αναπτυχθεί στο πλαίσιο της Χωρικής Οικονομετρίας

(Anselin, 1988).

Στο ακαδημαϊκό λογισμικό GeoDa (Anselin & Ray, 2014) υπολογίζονται δύο διαφορετικά μοντέλα

χωρικής παλινδρόμησης:

το Spatial Lag στο οποίο η βασική αρχή είναι η προσθήκη μίας ανεξάρτητης μεταβλητής η

οποία υπολογίζεται συνήθως ως ο αριθμητικός μέσος της εξαρτημένης μεταβλητής για τις

γειτονικές παρατηρήσεις.

Το Spatial Error όπου η χωρική αυτοσυσχέτιση εντοπίζεται στον όρο του σφάλματος της

εξίσωσης παλινδρόμησης.

Και στα δύο μοντέλα υπολογίζονται η σταθερά της εξίσωσης και οι συντελεστές παλινδρόμησης,

καθώς και οι εκτιμώμενες τιμές για την εξαρτημένη μεταβλητή και τα κατάλοιπα.

Στη δεύτερη προσέγγιση της χωρικής παλινδρόμησης υπολογίζονται πολλά τοπικά μοντέλα

παλινδρόμησης και οι παράμετροι του μοντέλου διαφοροποιούνται στον γεωγραφικό χώρο. Η βασική ιδέα

στην περίπτωση αυτή είναι ότι είναι σφάλμα να υποθέτουμε ότι τα αποτελέσματα που προκύπτουν από το

σύνολο των δεδομένων αντιπροσωπεύουν την κατάσταση σε όλα τα τμήματα της περιοχής μελέτης. Αντί

επομένως να υπολογίζουμε ένα συνολικό (global) μοντέλο για την περιοχή μελέτης, υπολογίζουμε πολλά

τοπικά (local) μοντέλα παλινδρόμησης. Το μοντέλο ονομάζεται γεωγραφικά σταθμισμένη παλινδρόμηση

(Geographically Weighted Regression ή GWR) [Fotheringham, Brunsdon, & Charlton, 2002].

Στη γεωγραφικά σταθμισμένη παλινδρόμηση αντιμετωπίζεται το πρόβλημα ότι μια ανεξάρτητη

μεταβλητή μπορεί να έχει διαφορετική σημασία στις υποπεριοχές της περιοχής μελέτης, οπότε με το συνολικό

(global) μοντέλο αποκρύβεται σημαντική πληροφορία. Ένα παράδειγμα αποτελεί η απόσταση από χώρους

πρασίνου, ως επεξηγηματικός παράγοντας της αξίας των κατοικιών. Στην κλασική παλινδρόμηση προκύπτει

ένας συντελεστής παλινδρόμησης ο οποίος εκφράζει την επίδραση της μεταβλητής αυτής στην αξία των

κατοικιών σε όλη την περιοχή μελέτης. Όμως στην περιοχή της Αθήνας, όπως και σε άλλα αστικά κέντρα, η

επίδραση θα είναι μεγαλύτερη στις κεντρικές συνοικίες όπου οι χώροι πρασίνου είναι πολύ περιορισμένοι,

παρά στα προάστια όπου οι χώροι πρασίνου είναι περισσότεροι. Με τη γεωγραφικά σταθμισμένη

παλινδρόμηση μπορούμε να μελετήσουμε τη γεωγραφική διαφοροποίηση της επίδρασης των ανεξάρτητων

μεταβλητών στην εξαρτημένη μεταβλητή.

Για κάθε τοπική εξίσωση παλινδρόμησης λαμβάνονται υπόψη τα δεδομένα για ένα τμήμα της

περιοχής μελέτης που περιβάλλει την γεωγραφική οντότητα για την οποία γίνεται ο υπολογισμός. Τα

δεδομένα αυτά έχουν διαφορετική στάθμιση ανάλογα με τη γειτνίασή τους με την επιλεγμένη θέση. Οι

κοντινές θέσεις έχουν μεγαλύτερη βαρύτητα από τις μακρινές. Μια συνήθης επιλογή είναι ότι δημιουργείται

μια περιοχή για κάθε γεωγραφική οντότητα, ο πυρήνας (Kernel), που ορίζεται από το σημείο όπου υπάρχουν

δεδομένα και μια ακτίνα r η οποία αποτελεί το εύρος ζώνης (bandwidth). Η στάθμιση των γειτονικών

σημείων γίνεται συνήθως ανάλογα με την απόσταση από την επιλεγμένη θέση, χρησιμοποιώντας μια

συνάρτηση μείωσης με την απόσταση (distance decay function, βλ. Διάγραμμα 5.4). Η επιλογή του

κατάλληλου εύρους ζώνης (bandwidth) γύρω από κάθε θέση είναι σημαντική, επειδή αν το εύρος είναι πολύ

μεγάλο, το μοντέλο θα περιλαμβάνει μεγάλο τμήμα της περιοχής μελέτης και θα πλησιάζει τα αποτελέσματα

της κλασικής παλινδρόμησης. Αντίθετα αν το εύρος είναι μικρό αναδεικνύονται οι λεπτομέρειες των τοπικών

Page 35: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

174

χαρακτηριστικών. Η επιλογή του κατάλληλου εύρους ζώνης εξαρτάται από το πρόβλημα που εξετάζουμε. Ο

πυρήνας μπορεί να είναι σταθερής ακτίνας (fixed) για όλα τα σημεία ή μπορεί να είναι μεταβλητού εύρους

ζώνης (adaptive) ανάλογα με την πυκνότητα των παρατηρήσεων. Όταν δηλαδή τα δεδομένα είναι αραιά στον

γεωγραφικό χώρο το εύρος μεγαλώνει και το αντίθετο συμβαίνει όταν η πυκνότητα είναι μεγάλη

(Fotheringham et al., 2002).

Στη γεωγραφικά σταθμισμένη παλινδρόμηση προκύπτουν οι εκτιμώμενες τιμές για την εξαρτημένη

μεταβλητή και τα κατάλοιπα. Οι παράμετροι όμως της γεωγραφικά σταθμισμένης παλινδρόμησης έχουν και

αυτές γεωγραφική κατανομή (π.χ. οι συντελεστές παλινδρόμησης) και δεν είναι σταθεροί για το σύνολο της

περιοχής μελέτης. Από τη χαρτογράφηση των παραμέτρων μπορεί να προκύψουν χρήσιμα συμπεράσματα για

την ερμηνεία της εξαρτημένης μεταβλητής. Τα κατάλοιπα μετά την GWR θα πρέπει να έχουν τυχαία

κατανομή, αλλιώς λείπει κάποια ανεξάρτητη μεταβλητή από το μοντέλο.

Η αξιολόγηση του μοντέλου της χωρικής παλινδρόμησης εκτός από το R2 γίνεται με πρόσθετα

στατιστικά κριτήρια. Ένα σημαντικό κριτήριο το οποίο χρησιμοποιείται για να συγκρίνει διαφορετικά

μοντέλα παλινδρόμησης μεταξύ τους είναι το Akaike Information Criterion (AIC) το οποίο χρησιμοποιεί τα

τετράγωνα των καταλοίπων της παλινδρόμησης, τον αριθμό των παραμέτρων της εξίσωσης και το μέγεθος

του δείγματος. Η μείωση του κριτηρίου αυτού, για παράδειγμα από την OLS10

στην GWR, αποτελεί ένδειξη

βελτίωσης του μοντέλου.

H γεωγραφικά σταθμισμένη παλινδρόμηση έχει ενσωματωθεί τα τελευταία χρόνια στο ArcGIS.

Υπάρχουν όμως και άλλα εξειδικευμένα στατιστικά πακέτα, όπως το GeoDa που αναφέρθηκε προηγουμένως,

αλλά και λογισμικά τα οποία μπορούν να υπολογίσουν λογιστική και Poisson γεωγραφικά σταθμισμένη

παλινδρόμηση (de Smith et al., 2015).

ΠΑΡΑΔΕΙΓΜΑ 5.6: Γεωγραφικά σταθμισμένη παλινδρόμηση Για τα δεδομένα των κατοικιών της Αττικής, μπορεί να υπολογιστεί καταρχήν η κλασική

παλινδρόμηση (Ordinary Least Squares ή OLS) στο ArcGIS (Video 5.4). Οι παρατηρήσεις δεν μπορεί να

είναι οι μεμονωμένες κατοικίες επειδή δεν γνωρίζουμε την ακριβή τους θέση, παρά μόνο τον δήμο στον οποίο

ανήκουν. Όπως και στις προηγούμενες χαρτογραφήσεις (Χάρτες 3.2 και 5.1) υπολογίσαμε τους αριθμητικούς

μέσους των μεταβλητών ανά δήμο, οπότε οι παρατηρήσεις για την κλασική παλινδρόμηση είναι οι 63 δήμοι11

της περιοχής μελέτης. Εξαρτημένη μεταβλητή είναι η μέση αξία κατοικίας ανά δήμο και ανεξάρτητες το μέσο

εμβαδόν και η μέση ηλικία. Από το μενού Spatial Statistics στο ArcGIS επιλέγουμε Modeling spatial

relationships, Ordinary Least Squares και τα αποτελέσματα για την εξίσωση και το R2 είναι τα εξής:

ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ = -36178,55+ 3747,45· ΕΜΒΑΔΟΝ – 4151,03· ΗΛΙΚΙΑ

και R2=0,82

Αν πραγματοποιούσαμε την κλασική παλινδρόμηση στο SPSS χρησιμοποιώντας ως παρατηρήσεις

τους 63 δήμους με τις παραπάνω μεταβλητές θα προέκυπταν τα ίδια αποτελέσματα.

Παρατηρούμε ότι σε σχέση με την εξίσωση της πολλαπλής παλινδρόμησης για τις 800 κατοικίες στο

SPSS η τιμή του R2 έχει αυξηθεί από R

2=0,779 σε R

2=0,82. Αυτή η αύξηση μπορεί να αποδοθεί στο γεγονός

της συγκέντρωσης των δεδομένων σε μεγαλύτερες γεωγραφικές ενότητες (MAUP). Επίσης αν ελέγξουμε τα

κατάλοιπα της OLS για ύπαρξη χωρικής αυτοσυσχέτισης με τον υπολογισμό του Moran I, το χωρικό πρότυπο

είναι συγκεντρωμένο (clustered). Στην περίπτωση αυτή είναι σκόπιμο να προχωρήσουμε στη γεωγραφικά

σταθμισμένη παλινδρόμηση.

Video 5.4 Βίντεο

Υπολογισμός κλασικής παλινδρόμησης (ArcGIS)

10

Στο ArcGIS αλλά και σε ορισμένους επιστημονικούς κλάδους η κλασική παλινδρόμηση αναφέρεται ως OLS

(Ordinary Least Squares)

11

Στην ανάλυση καταλοίπων και στη γεωγραφικά σταθμισμένη παλινδρόμηση χρησιμοποιούνται οι δήμοι προ

Καλλικράτη.

Page 36: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

175

Με τα ίδια δεδομένα μπορούμε να πραγματοποιήσουμε τη γεωγραφικά σταθμισμένη παλινδρόμηση

από το μενού Spatial Statistics, Modeling spatial relationships, Geographically Weighted Regression (GWR)

του ArcGIS (Video 5.5). Προκύπτει τιμή του R2=0,916. Επομένως υπάρχει βελτίωση της ερμηνευτικής

ικανότητας του μοντέλου όταν ληφθεί υπόψη η χωρική αυτοσυσχέτιση. Επίσης η τιμή του κριτηρίου Akaike

έχει μειωθεί από 1630,8 για την OLS σε 1613,3 για την GWR, μείωση η οποία θεωρείται σημαντική.

Στα αποτελέσματα της GWR δεν προκύπτει μία εξίσωση για όλη την περιοχή μελέτης, αλλά μία

εξίσωση για κάθε πολύγωνο. Στον Πίνακα 5.10 φαίνεται τμήμα των αποτελεσμάτων της γεωγραφικά

σταθμισμένης παλινδρόμησης. Τόσο η σταθερά (intercept) όσο και ο συντελεστής προσδιορισμού R2 και οι

συντελεστές παλινδρόμησης (C1_SIZE για το εμβαδόν και C2_AGE για την ηλικία) μεταβάλλονται

γεωγραφικά από παρατήρηση σε παρατήρηση. Επίσης από το μοντέλο προκύπτουν εκτιμήσεις των

παραμέτρων για όλα τα σημεία της περιοχής μελέτης και όχι μόνο για αυτά στα οποία υπάρχουν δεδομένα.

Video 5.5 Βίντεο

Υπολογισμός γεωγραφικά σταθμισμένης παλινδρόμησης (ArcGIS)

Στον Χάρτη 5.2 φαίνονται τα κατάλοιπα της GWR τα οποία είναι τυποποιημένα (standardized). Από

τον χάρτη αυτό φαίνεται ότι σε σχέση με τον Χάρτη 5.1 παρατηρείται μείωση του μεγέθους των καταλοίπων

και αν υπολογίσουμε τον συντελεστή αυτοσυσχέτισης Moran I για τα κατάλοιπα της GWR θα προκύψει

τυχαίο πρότυπο, δηλαδή τα κατάλοιπα δεν παρουσιάζουν πλέον χωρική αυτοσυσχέτιση και οφείλονται σε

τυχαίους παράγοντες.

Κατά συνέπεια από το μοντέλο της γεωγραφικά σταθμισμένης παλινδρόμησης προκύπτει καλύτερη

ερμηνεία της εξαρτημένης μεταβλητής και ακριβέστερος προσδιορισμός του μοντέλου της παλινδρόμησης.

Ορισμένες παρατηρήσεις ως προς την εφαρμογή της GWR στο ArcGIS είναι οι εξής:

Δεν πρέπει να περιλαμβάνονται ψευδομεταβλητές (dummy variables)

Πρέπει να δίνεται προσοχή στις ελλείπουσες τιμές (missing values) τόσο στην OLS όσο και

την GWR επειδή θεωρούνται ως μηδενικά και έτσι δεν παράγονται σωστά αποτελέσματα.

Χρειάζεται προσοχή στην επιλογή των χωρικών βαρών όταν στην περιοχή μελέτης

περιλαμβάνονται νησιά, για παράδειγμα η επιλογή rook στα χωρικά βάρη δεν είναι

κατάλληλη στην περίπτωση αυτή.

Όταν χρησιμοποιούμε δεδομένα σε κάποια διοικητική υποδιαίρεση στην οποία

περιλαμβάνονται νησιά, μπορεί αυτά να θεωρηθούν ως πρόσθετες παρατηρήσεις.

Πίνακας 5.10 Γεωγραφικά σταθμισμένη παλινδρόμηση (GWR): Πίνακας περιγραφικών χαρακτηριστικών

Page 37: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

176

Χάρτης 5.2 Κατάλοιπα της γεωγραφικά σταθμισμένης παλινδρόμησης (ArcGIS)

Βιβλιογραφικές Αναφορές

Abler, R., Adams, J.S., & Gould, P. (1971). Spatial organization. The geographer’s view of the world.

Englewood Cliffs, NJ: Prentice-Hall.

Anselin, L. (1988). Spatial econometrics: Methods and models. Dordrecht, NL: Kluwer Academic.

Anselin L., & Rey S.J. (2014). Modern spatial econometrics in practice. Chicago: GeoDA Press.

Αποστολόπουλος, Θ.Η. (2003). Περιγραφική στατιστική επιχειρήσεων. Αθήνα: Σύγχρονη Εκδοτική.

Γναρδέλλης, Χ. (2003). Εφαρμοσμένη Στατιστική. Αθήνα: Παπαζήση.

Chatterjee, S., & Hadi, A.S. (2006). Regression analysis by example (4rth ed.). Hoboken, NJ: John Wiley &

Sons.

Chen, Y. (2015). The distance-decay function of geographical gravity model: Power law or exponential law?

Chaos, Solitons and Fractals, 77, 174–189.

Δαμιανού, Χ.Χ., Παπαδάτος, Ν.Δ., & Χαραλαμπίδης, Χ.Α. (2010). Εισαγωγή στις πιθανότητες και τη

Στατιστική. Αθήνα: Συμμετρία.

de Smith, M. J., Goodchild, M. F., & Longley, P. A. (2015). Geospatial analysis (5th ed.).

http://www.spatialanalysisonline.com/HTML/ (πρόσβαση Ιούλιος 2015).

Draper, N. A., & Smith, H. (1998). Applied regression analysis (3rd ed.). New York: John Wiley & Sons.

Page 38: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

177

Fotheringham, S.A., Brunsdon, C., & Charlton, M. (2002). Geographically weighted regression. Chichester:

John Wiley & Sons.

Getis, A. (2008). A history of the concept of spatial autocorrelation: A geographer’s perspective.

Geographical Analysis, 40, 297–309.

Graybill, F. A., & Iyer, H. K. (1994). Regression analysis. concepts and applications. Belmont, CA: Duxbury

Press.

Haining, R. (2004). Spatial data analysis. Theory and practice. Cambridge, UK: Cambridge University Press.

Halás, M., Klapka, P., & Kladivo, P. (2014). Distance-decay functions for daily travel-to-work flows, Journal

of Transport Geography, 35, 107–119.

Κίτσος, Χ. (1991). Εισαγωγή στην εφαρμοσμένη Στατιστική. Αθήνα: Εκδόσεις Νέων Τεχνολογιών.

Κίτσος, Χ. (1995). Υπολογιστική Στατιστική. Αθήνα: Εκδόσεις Νέων Τεχνολογιών.

Κίτσος, Χ. (2015). Τεχνολογικά μαθηματικά & Στατιστική (Τόμος ΙΙ). Αθήνα: Εκδόσεις Νέων Τεχνολογιών.

Ξεκαλάκη, Ε. (2001). Μη παραμετρική Στατιστική. Αθήνα, http://www.stat-athens.aueb.gr/~exek/NPar-

Statistics/chapter3.pdf (πρόσβαση Ιούλιος 2015).

O’Brien, L. (1992). Introducing quantitative geography. London: Routledge.

O’ Sullivan, D., & Unwin, D.J. (2010). Geographic information analysis. Hoboken, NJ: John Wiley & Sons.

Πανάρετος, Ι. (1994). Γραμμικά μοντέλα με έμφαση στις εφαρμογές, Διδακτικό βοήθημα. Αθήνα,

http://www2.stat-athens.aueb.gr/~jpan/index-stud-gr.html (πρόσβαση Αύγουστος 2017).

Robinson, G. M. (1998). Methods & techniques in human geography. Cichester, UK: John Wiley & Sons.

Rogerson, P.A. (2006). Statistical methods for geography. London: Sage Publications.

Shaw, G., & Wheeler, D. (2000). Statistical techniques in geographical analysis. London: David Fulton

Publishers.

Stanton, J. M. (2001). Galton, Pearson, and the peas: A brief history of linear regression for statistics

instructors. Journal of Statistics Education, 9(3),

http://www.amstat.org/publications/jse/v9n3/stanton.html.

Steinberg,S.J., & Steinberg, S.L. (2006). Geographic information systems for the social sciences:

Investigating space. Thousand Oaks, California: Sage Publications.

Stigler, S.M. (1981). Gauss and the invention of least squares. The Annals of Statistics, 9(3), 465-474.

Taylor, P. (1977).Quantitative methods in geography. USA: Houghton Mifflin Company.

Wong, D.W.S., & Lee, J. (2005). Statistical analysis of geographic information with ArcView GIS and

ArcGIS. Hoboken, New Jersey: John Wiley & Sons.

Κριτήρια αξιολόγησης

Κριτήριο αξιολόγησης 1 Ανάλυση συσχέτισης και παλινδρόμησης

Σας δίνονται δεδομένα εισοδήματος (ΑΕΠ) και απασχόλησης στη μεταποίηση για τις 13 περιφέρειες

της Ελλάδας (Πίνακας 5.11):

1. Να υπολογίσετε τον συντελεστή συσχέτισης Pearson r.

2. Αν το ΑΕΠ είναι η εξαρτημένη μεταβλητή, να υπολογίστε την εξίσωση παλινδρόμησης.

Page 39: Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα

178

3. Να υπολογίσετε τον συντελεστή προσδιορισμού και να σχολιάσετε την προσαρμογή του

μοντέλου της παλινδρόμησης στα δεδομένα.

4. Ποιες περιφέρειες έχουν θετικά και ποιες αρνητικά κατάλοιπα; Να εξηγήσετε τα κατάλοιπα

ανάλογα με τα γενικά χαρακτηριστικά των περιφερειών.

Περιφέρειες Απασχόληση στη

μεταποίηση ΑΕΠ

Ανατολική Μακεδονία και

Θράκη 37413 23896

Κεντρική Μακεδονία 146421 81342

Δυτική Μακεδονία 17665 16817

Ήπειρος 12208 11651

Θεσσαλία 45671 30925

Ιόνιοι Νήσοι 6894 8062

Δυτική Ελλάδα 31955 27311

Στερεά Ελλάδα 30519 34299

Αττική 315605 196885

Πελοπόννησος 22764 27833

Βόρειο Αιγαίο 4380 7276

Νότιο Αιγαίο 9766 13855

Κρήτη 17737 24099

Πίνακας 5.11 Δεδομένα αξιολόγησης