Download - Notes Spss

Transcript
Page 1: Notes Spss

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΤΜΗΜΑ ΜΑΡΚΕΤΙΝΓΚ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟ∆ΟΙ ΙΙ

ΜΑΡΙΝΑ Ε. ΨΙΛΟΥΤΣΙΚΟΥ

ΥΠ. ∆Ι∆ΑΚΤΟΡΑΣ Ο.Π.Α.

ΑΘΗΝΑ, 2005

Page 2: Notes Spss

Μετάφραση και Προσαρµογή Κεφαλαίων από το βιβλίο των

Darren George και Paul Mallery

“SPSS for Windows Step by Step: A Simple Guide and Reference 11.0 Update”

Copyright © 2003 Pearson Education Inc.

ISBN: 0-205-37552-9

www.ablongman.com/george

Page 3: Notes Spss

. GRADES.SAV

Grades.sav

. ,

.

. , 35

. , ’ :

ID .

LASTNAME .

FIRSTNAM .

SEX : 1= , 2 =

ETHNIC : 1= , 2= , 3 = ,4= ( ) 5=

YEAR : 1=Frosh (1 ), 2=Soph (2 ), 3=Junior(3 ), 4=Senior (4 )

LOWUP : 1= , 2=

SECTION (1 3).

GPA .

ETRCRED : 1= ,2=

REVIEW :1= , 2=

QUIZ1 QUIZ5

5 ( 10).

FINAL 75.

grades.sav.

I. .SAV

Page 4: Notes Spss

anxiety.sav .

= 73/

. :

exam: 100.

anxiety: , 10 , (0) (10).

. HELPING1.SAV

anxiety.sav .

= 81

’ . ,

:

zhelp: z ( ) , ,

-3 +3.

sympathy: , (1)

(7).

anger: , · .

efficacy: (self efficacy)·

.

severity: , ’ ·

.

empatened:, .

V. HELPING2.SAV

( = 517) helping1.sav. (

), 15

Page 5: Notes Spss

1 (self-efficacy) 14

( 7). , :

effic effic15: 15 .

empathy1 empathy14: 14

.

1 , , , « »

Page 6: Notes Spss

:

,

.

,

. « »

,

.

.

!

:

1. (

),

) (

,

, ,

).

2. .

3. .

. ,

. ,

.

SPSS.

,

.

. « »

.

Page 7: Notes Spss

SPSS for Windows 14.0 SPSS (Statistical Package for Social Sciences Statistical Product and Service

Solutions)

. SPSS 14.0

.

, ,

11 .

99% ( ).

-

.

SPSS for Windows

.

, , SPSS

.

Windows, SPSS

Henry Ford , Bill Gates :

. SPSS

,

.

SPSS1. Data View

1 Data Editor.

. SPSS, Data Editor.

Data Editor,

(

variable View, )

(

).

Page 8: Notes Spss

1: Data View

.

Variable View, Var

.

, (,)

SPSS .

.

.

. 1

data editor.

« ».

.

, Print File ( )

.

Data Editor,

Page 9: Notes Spss

.

!

.

Data

Editor.

( ) excel,

txt, access, . ,

. enter

. ,

Data Editor (

).

) :

File Open Data. Open File Type

(

). Open Data

Editor SPSS.

2. Variable View

,

, .

( data view

) 10

. 10

: , , , , , , ,

, , (Name, Type, Width, Decimals, Label,

Values, Missing, Columns, Align, Measure).

Page 10: Notes Spss

2: Variable View

(Name)

. enter

.

.

. , .

’ , SPSS

.

o .

, 13

’ . 11,

8 .

o , ’

, , #, _,

Page 11: Notes Spss

$. ,

.

o .

.

o

. , COLOUR, Colour, colour

SPSS.

o SPSS,

. : all,

ne, eq, to, le, lt, gt, and, not, ge width.

enter ’ ,

, ,

default .

,

.

(Type)

’ Type

Numeric (= ).

SPSS

,

(

).

Numeric.

. ’ :

« » data view

.

,

.

,

.

( )

( 1

»).

Page 12: Notes Spss

,

. String.

( )

string. string ( .

type2, Jones III) ,

SPSS ,

(

).

. Numeric String

.

, Help

.

(width)

Width

.

width

.

8 ,

.

(Decimals)

Decimals

. .

string 0. :

Width 2

2,

. 0

2. Width

,

.

,

.

Page 13: Notes Spss

data view .

,

,

.

(Label)

Label (

)

.

( . colour, sex, age) .

.

Label

. 256 ,

.

. (

, , ) .

, Label

. ,

Label .

( ) .

Data View Variable View.

(Values)

Value

.sex: 1= , 2= · marital: 1= , 2= ,

3= , 4= ).

. SPSS

, 3

.

SPSS

. SPSS

Page 14: Notes Spss

60 ,

.

Type,

Values . ’

.

(Missing)

Missing

. ,

8

9. Missing,

8 9

.

( )

. ,

User Missing

( data view «,») System

Missing.

(Columns)

Columns .

Data View ( variable

view, data view).

:

.

,

.

. 3

33 ( )·

8 ( ),

12.

’ Columns.

Page 15: Notes Spss

, 8.

(Align)

Align drop-down

,

. numeric , string

. ,

.

(Measure)

Measure drop-down

:

Scale ( ), Ordinal ( ),

Nominal ( ).

. ,

: 16 8, 4

8, 4 8 12 ’ .

scale SPSS

.

. 1 10

, 4

’ 2.

(

), .

) , ,

.

.

SPSS :

Page 16: Notes Spss

String Nominal (

, ).

24

(default), Scale.

Numeric

Scale.

. , .

, SPSS

.

.

. , SPSS

.

Page 17: Notes Spss

3. Output Navigator

3:

«Output»

. SPSS

.

.

3

.

Data Editor SPSS.

Data Editor,

. ,

.

Page 18: Notes Spss

, .

,

SPSS .

Output SPSS (outline view)

.

SPSS (

) .

SPSS

, ( . (=frequencies), ,

, .

: « »

Output « » .

( ) .

,

notes ).

.

,

. ,

. ’ ,

.

, « »

. ,

( ’ ’ )

« » frequencies

). frequencies ,

« »

frequencies.

insert new text ( ). ’ ,

. ’

( , «

», « »).

, SPSS

. :

Page 19: Notes Spss

,

SPSS,

.

4.

« »

.

Frequencies,

.

4:

4 .

(

Variable View).

: ( –

scale, 3

, ),

(label) , ,

).

’ .

,

Page 20: Notes Spss

Variable(s).

.

.

SPSS .

, OK, Paste, Reset, Cancel, Help

(OK), default SPSS

(Reset),

– - (Cancel)

(Help). Paste

· .

menu bar SPSS

menu bar ,

SPSS.

,

. :

File:

( , ,

, ’ SPSS, .).

Edit:

, , , , , .)

View:

( , ) (fonts).

Data:

, , ,

, ,

.

Transform:

( ,

, missing values).

Page 21: Notes Spss

Analyze: ’

.

Graphs: ’

.

Utilities:

.

.

Windows: SPSS

Help:

SPSS ( , , ).

. ,

( , manual & help SPSS)

.

Page 22: Notes Spss

File

5: File

5 File.

New, Open, Save, Save As, Print, Print Preview, Exit.

Windows

.

Windows,

.

New .

File New Data. ,

. ’

.

Page 23: Notes Spss

Open ,

.

File Open Data Open,

6.

6: Open File

’ :

(File Name)

(Look in). ,

Look in:. drop down

.

, (

[SPSS ])

(

). (

) Open

Page 24: Notes Spss

. Files of type:

.

default SPSS

( SPSS :

.sav .spo).

Cancel .

Save Save As

/ . Save As :

.

) Save.

Save As, SPSS

.

Open .

, Save in ( Look in)

File name .

Save .

Page 25: Notes Spss

7: Save File

Save

.

Save

,

SPSS . ,

Windows ’

!

Print Print Preview

( ). Print

Preview Print

.

Page 26: Notes Spss

( ) .

, SPSS,

Print Preview .

(

) Print (

)

.

.

, Exit SPSS.

Edit

8: Edit

Edit Undo, Cut, Copy,

Clear, Paste Find. , ,

,

edit.

Page 27: Notes Spss

H Undo

‘ ’

.

. Undo

,

. .

Save, ,

Undo .

.

!

Cut Paste

Paste.

.

.

Edit Copy.

.

edit Paste .

Cut ( Copy).

Copy,

,

. Cut

.

Clear .

, , ,

Edit Clear ’

.

Delete.

Find

. (

)

.

, Edit Find

“ ”

Find Next.

Page 28: Notes Spss

, SPSS

.

View

9: View

View Status Bar,

Fonts, Grid Lines. ,

Status Bar Grid Lines .

. ,

.

.

Status Bar ,

Data Editor

SPSS (SPSS Processor is Ready, Running

Frequencies,

). Grid Lines ,

Data Editor .

Data Editor

,

Data Editor ·

.

Fonts

.

Fonts ,

.

Page 29: Notes Spss

10: Fonts

Font , Font Style

(Italic),

(Bold), (Bold Italic) (Regular).

Size .

Sample

. ,

OK .

,

, .

.

Page 30: Notes Spss

Data

11: Data

Data Insert Variable, Insert Case, Go to Case,

Sort Cases, Select Cases.

Insert Variable

Insert variable

data editor . (

) data Insert Variable

.

( «,»)

SPSS Var00001. Variable View

, ,

,

Variable View.

Page 31: Notes Spss

Insert Case

Insert Case data

editor . (

) data Insert Case

.

( «,»).

Go to Case

Go to Case

.

. Find

Edit.

Select Cases

Select Cases

’ .

. ,

.

SPSS

.

Select Cases.

, All

cases Select Cases.

,

.

.

,

select cases

. ,

, SPSS

filter_$ 1

0 .

(

Page 32: Notes Spss

), .

select cases, .

Select Cases . All

cases select

.

(

) radio button If condition is satisfied

If.

.

70 .

:

+ < &

- >

(and):

* <= |

/ >=

(or):

** = ~

( ) ~=

(not):

,

.

:

1. Sex ( )

: =1, =2

:

: sex = 1

2. year ( )

: =1, =2, =3, =4

Page 33: Notes Spss

: (year = 1) | (year = 3)

12: Select Cases

. , ,

sex = 1, sex ~= 2. , ,

.

.

Page 34: Notes Spss

Transform

Data Compute Recode.

Compute

Compute

.

(age) (age_m)

Compute.

Transform Compute Compute Variable,

13.

13: Compute

Target Variable

,

.

Variable View

. Type & Label

Page 35: Notes Spss

.

. 1

12. , (age_m)

(age) 12.

Numeric Expression.

SPSS.

Recode

Recode

.

. age

( ) .

,

recode « 18»

1, «19-24» 2, «25-45»

3, «41-60» 4 « 61»

1.

Recode :

.

.

Transform Recode Into Different Variables

Recode Into Different Variables, 14.

Page 36: Notes Spss

14: Recode

Numeric Variable Output

Variable.

( change

) .

Old and New Values.

15.

Page 37: Notes Spss

15: Age

Value Old Value

, Value New Value, ,

. Add

Old New.

.

, Continue K.

(Recode into Same Variable).

.

, .

,

,

, .

Recode .

o ,

,

.

Page 38: Notes Spss

,

( )

.

o

,

. ,

, 15

.

: , .

.

o Likert,

) « ». «

» ,

» .

,

, .

. – ). ,

: 1 5, 2 4, 3 3, 4

2 5 1.

Count

count

( ) .

count

. 0 (

( ) )

( ). ,

Q1-Q5

. ’

, count

10

, .

Page 39: Notes Spss

Transform count

.

16 : Count

target variable

.

variable

view. ,

, .

, Define Values,

16 .

16 : Count

Page 40: Notes Spss

Define Values .

,

(value) (Range),

SPSS .

,

add, Values to Count. Add,

16 ,

.

Value ,

.

) range: ……through……

. ,

,

5 10. 5

10 (5 through 10).

) range: Lowest through ……

’ ,

.

Lowest through 10,

10.

) range: …….. through highest

’ ,

. 10 through highest,

10.

Utilities

. Windows

SPSS (Data View, Variable View, Output Navigator, ).

Page 41: Notes Spss

Help .

SPSS.

Help,

.

Graphs

,

( ).

Box Whisker (Box Plot) Scatter Plot,

.

Analyze

Analyze Descriptive Statistics (Frequencies,

Crosstabs).

Frequencies

Frequencies, SPSS

. Analyze Descriptive Statistics

Frequencies ,

17 .

17 : Frequencies

Page 42: Notes Spss

Variables. Statistics

.

·

( )

.

17 : Frequencies

SPSS ,

.

Percentile Values =

Quartiles =

Cut points for ___ equal groups = __

Percentile(s) =

Dispersion =

Std. Deviation =

Variance =

Range =

Minimum =

Maximum =

Page 43: Notes Spss

S.E. mean =

Central Tendency =

Mean =

Median =

Mode =

Sum =

Distribution =

Skewness =

Kurtosis =

, Continue

frequencies. Chart,

( 17 )

.

17 : Frequencies

(Bar Chart) (Pie Chart),

(

)

. , Continue

frequencies.

Display Frequency Tables

).

,

Page 44: Notes Spss

,

(

). OK, SPSS

.

Frequencies.

17 :

17 :

.

,

Page 45: Notes Spss

.

- .

±1,

±2.

Quiz1 (

).

.

.

(

missing values— ).

.

,

Valid Percent.

Crosstabs

Crosstabs

.

, , ( ,

), ( , , ), ( , ),

(A, B, C, D, F) . Crosstabs

, (0-19 , 20-39 , 40-59

, 60-79 , 80-99 ).

.

(section) ,

(gender)

(ethnicit). gender

ethnicit (section).

, .

Analyze Descriptive Statistics Crosstabs

, 18 .

Page 46: Notes Spss

18 : Crosstabs

, ,

.

Rows Columns .

( layer 1 of 1) (

section). , , ’

cells,

Observed. SPSS,

. ,

.

, OK

18 .

Page 47: Notes Spss

18 : ( Crosstabs)

( , , ).

.

. crosstabs, cells

, 18 .

18 : Cells Crosstabs

Page 48: Notes Spss

Observed, , .

percentages :

crosstabs

) (rows), )

(columns) ) (total).

, (expected),

2. ,

( – observed),

.

Graphs

graphs,

,

, Box Plot Box Whisker.

5 ,

.

Graphs Boxplot.

(BoxPlot), ’

(Simple) (Data in chart

are) (summaries of separate

variables). , Define

( ) Box Plot.

( )

Boxes Represent.

Page 49: Notes Spss

19 : Box-Whisker

Box Plot .

, ,

: ,

25% (1 ), 75%

(3 ), .

. (

) 3 ( 1

) 1.5 . ’

.

Page 50: Notes Spss

19 : Box-Whisker

Page 51: Notes Spss

1: Crosstabs 2

crosstabs

.

,

( , ), ( , , ),

( , , ), ( , ), (A, B, C, D, F)

.

,

(0-19 , 20-39 , 40-59 , 60-79 , 80-99 ),

(0-99, 100- 149, 150-199, 200-250), ’ .

,

. ,

( ),

99 100 ,

0 149

, . crosstabs

.

SPSS Crosstabs (= )

Cells (= ) Statistics (= )

.

Crosstabs

Frequencies 5 , 20

, 24 , 45 , 11 ( 64

41 ) grades.sav,

.

Crosstabs. ( ethnic

sex) .

10

[ ’ (2)

(sex) (5) (ethnic)].

,

Page 52: Notes Spss

-

, .

ethnic, sex, grade

. 5 (ethnic)

x 2(sex) x 5 (grade) – 50

105 . ’

.

, SPSS

5x2 .

CHI-SQUARE ( 2)

( )

, SPSS .

.

. 100

30 70 . 10

, ( ) –

10

3 7 (

). , 100, 10 ’

3 7 .

,

( ) .

, 10

. chi-square

. chi-square

[ (f0)

(fe)] :

2 = [(f0 -fe)2/fe]

,

, 2 ,

.

. p < 0.05,

Page 53: Notes Spss

.

.

chi-square

( ) .

chi-square

.

, Pearson ( ),

chi-square ( )

.

0 1 (

0 1

). ,

2 ,

1.0. Cramér’s V2/[ (k-1)], k

).

0 1.0

chi-square.

Crosstabs

. grades.sav

= 105.

chi-square

sex ethnic.

Crosstabs Chi-Square

Analyze, Descriptive Statistics

Corsstabs.

( 1.1, )

crosstabs.

:

( sex ’ )

( ) ’ Row(s)

.

Page 54: Notes Spss

, ( ethnic ’

) (

).

. 2 (sex)

5 (ethnic) 10 .

1.1

Crosstabs

. , ,

, section

.

:

, ,

. Previous (= )

Next (= ) Layer 1 of 1

. ,

( ),

section (= ), ,

Next, year (= ), .

2 x 5 2 x 5

.

Page 55: Notes Spss

.

.

. Cells (= )

1.1), ( 1.2, )

. Observed

. Expected

’ )

.

.

1.2

Crosstabs: Cell

Display

Page 56: Notes Spss

o Observed Count.

o Expected Count .

o Row Percentages’

.

o Column Percentages’

.

o Total Percentages.

o Unstandardized Residuals .

.

, crosstabs, chi-square.

statistics ( 1.1). ’

, ( 1.3, ).

.

Chi-square Phi and Cramér’s V. Cells,

.

1.3

Crosstabs:

Statistics

crosstabs chi-square

. ,

Page 57: Notes Spss

sex ethnic ,

« » 5

. 2

) x 4 (

) . crosstabs,

,

Data . ’

, Select Cases.

, f condition is

satisfied ( ),

If .

( Select Cases: If).

,

.

2, 3, 4, 5 ethnic.

ethnic ,

« » ,

>= ( ),

2.

ethnic 2. Continue,

, 1.1

.

(OUTPUT)

Crosstabs Chi-Square ( 2)

.

Page 58: Notes Spss

SEX * ETHNIC Crosstabulation

4 13 14 26 7 643,0 12,2 14,6 27,4 6,7 64,01,0 ,8 -,6 -1,4 ,3

1 7 10 19 4 412,0 7,8 9,4 17,6 4,3 41,0

-1,0 -,8 ,6 1,4 -,35 20 24 45 11 105

5,0 20,0 24,0 45,0 11,0 105,0

CountExpected CountResidualCountExpected CountResidualCountExpected Count

Female

Male

SEX

Total

Native Asian Black White HispanicETHNIC

Total

Chi-Square Tests

1,193a 4 ,8791,268 4 ,867

,453 1 ,501

105

Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)

3 cells (30,0%) have expected count less than 5. Theminimum expected count is 1,95.

a.

Symmetric Measures

,107 ,879,107 ,879105

PhiCramer's V

Nominal byNominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the nullhypothesis.

b.

: SPSS for Windows: Crostabulation and Chi-square analyses

crosstabs chi-square

.

.

, 26 27.4 19

17.6 ).

( )

.

chi-square

( ’

Page 59: Notes Spss

).

chi-square (1.19288)

0.8 (0.87927).

. ,

. 3 10

5.

« » (Native).

,

.

/

COUNT 10 (4, 13, 14,...)

.

EXP. COUNT

10 (3.0, 12.2,

14.6,...),

.

RESIDUAL .

ROW TOTAL (64

, 41 ).

COLUMN

TOTAL (5 , 20 , 24 , 45 , 11

).

CHI SQUARE:

PEARSON and

LIKELIHOOD

RATIO

chi-square. N ,

. Pearson chi-square :2 = [(f0 -fe)2/fe].

VALUE

PEARSON MAXIMUM LIKELIHOOD,

,

( . ) .

1 (1.193, 1.268)

.

DEGREES OF

FREEDOM 1 (2 - 1 = 1)

1 (5 – 1 = 4). 1 x 4 = 5.

SIGNIFICANCE. p

Page 60: Notes Spss

.

LINEAR-BY-

LINEAR

ASSOCIATION

.

. , (

) . ,

. ,

,

.

MINIMUM

EXPECTED

COUNT

( , ).

(2.0).

1.95.

PHI . 0.10659

.

CELLS WITH

EXPECTED

COUNT <5

3 10

5.

25% ),

chi-square .

CRAMÉR’S V

. phi Cramér’s V

0 1,

phi 1.

: ( : k

)

V= /[ [2

APPROXIMATE

SIGNIFICANCE

Pearson chi-

square. (0.87927)

.

Page 61: Notes Spss

Αρχεία ∆εδοµένων για την παρουσίαση των αναλύσεων

Ι. GRADES.SAV

Το Grades.sav είναι το αρχείο δεδοµένων που θα χρησιµοποιήσουµε για την παρουσίαση των περισσότερων στατιστικών αναλύσεων και ελέγχων που διδάσκονται στο συγκεκριµένο µάθηµα. Το αρχείο αυτό βρίσκεται στην ηλεκτρονική βιβλιοθήκη του µεταπτυχιακού προγράµµατος, µαζί µε τα τρία αρχεία που αναφέρονται στη συνέχεια.

Το αρχείο αυτό περιέχει ακατέργαστα δεδοµένα για τον υπολογισµό των βαθµών σε µια συγκεκριµένη τάξη. Το παράδειγµα αναφέρεται σε ένα µοναδικό αρχείο κάποιου καθηγητή, ο οποίος διδάσκει σε τρία τµήµατα µιας τάξης µε περίπου 35 φοιτητές σε κάθε τµήµα. Από αριστερά προς τα δεξιά, οι µεταβλητές που χρησιµοποιούνται σ’ αυτό το αρχείο δεδοµένων είναι:

Μεταβλητή Περιγραφή

ID Εξαψήφιος αριθµός που αποτελεί την ταυτότητα του φοιτητή.

LASTNAME Το επώνυµο του φοιτητή.

FIRSTNAM Το µικρό όνοµα του φοιτητή.

SEX Το φύλο του φοιτητή: 1=γυναίκα, 2 = άνδρας

ETHNIC Η εθνικότητα του φοιτητή: 1=Ιθαγενής, 2=Ασιάτης, 3 = Μαύρος, 4=Λευκός (όχι Ισπανόφωνος) 5=Ισπανόφωνος

YEAR Έτος στη σχολή: 1=Frosh (1ο έτος), 2=Soph (2ο έτος), 3=Junior (3ο έτος), 4=Senior (4ο έτος)

LOWUP Φοιτητής πάνω ή κάτω από το µέσο όρο: 1=Κάτω, 2=Πάνω

SECTION Τµήµα της τάξης (1 έως 3).

GPA Μέσος όρος στην αρχή του µαθήµατος.

ETRCRED Αν ο φοιτητής έχει επιπλέον βαθµούς από εργασίες ή όχι: 1=Όχι, 2=Ναι

REVIEW Αν ο φοιτητής έχει παρακολουθήσει επαναληπτικά µαθήµατα ή όχι: 1=Όχι, 2=Ναι

QUIZ1 έως QUIZ5

Βαθµοί σε 5 πρόχειρα διαγωνίσµατα (το καθένα µε άριστα το 10) κατά τη διάρκεια του εξαµήνου.

FINAL Τελική εξέταση µε άριστα το 75.

Στη συνέχεια παρουσιάζονται τα δεδοµένα που υπάρχουν στο αρχείο grades.sav.

Page 62: Notes Spss

ΙI. ΑΝΧΙΕΤΥ.SAV

Το anxiety.sav είναι το αρχείο δεδοµένων που θα χρησιµοποιήσουµε για την παρουσίαση της απλής παλινδρόµησης.

Το αρχείο περιλαµβάνει υποθετικά δεδοµένα µε αριθµό παρατηρήσεων Ν = 73 σχετικά µε τη σχέση του µεγέθους ανησυχίας/ άγχους πριν από κάποια εξέταση και την απόδοση στην εξέταση αυτή. Περιλαµβάνει δύο µεταβλητές:

exam: Η βαθµολογία στην εξέταση µε άριστα το 100.

anxiety: ένα µέτρο του άγχους πριν από την εξέταση, το οποίο µετράται σε µια 10βάθµια κλίµακα, από χαµηλό (0) ως υψηλό (10).

ΙIΙ. HELPING1.SAV

Το anxiety.sav είναι το αρχείο δεδοµένων που θα χρησιµοποιήσουµε για την παρουσίαση της πολλαπλής παλινδρόµησης.

Το αρχείο περιλαµβάνει πραγµατικά δεδοµένα µε αριθµό παρατηρήσεων Ν = 81 και δηµιουργήθηκε για να παρουσιάσει τη σχέση ανάµεσα σε διάφορες µεταβλητές και το χρόνο που δαπανάται για την παροχή βοήθειας σ’ ένα φίλο. Παρότι υπάρχουν κι άλλες µεταβλητές στο αρχείο, αυτές που χρησιµοποιούνται για την παρουσίαση των διαδικασιών παλινδρόµησης είναι οι εξής:

zhelp: οι τιµές z (τυποποιηµένη κανονική κατανοµή) του χρόνου, ο οποίος δαπανήθηκε για την ανταπόκριση στην ανάγκη του φίλου, που µετράται σε µια κλίµακα από -3 έως +3.

sympathy: η συµπάθεια, την οποία αισθάνθηκε ο παρέχων τη βοήθεια απέναντι στην ανάγκη του φίλου και µετράται σε µια κλίµακα από λίγη(1) έως πολλή(7).

anger: ο θυµός, τον οποίο αισθάνθηκε ο παρέχων τη βοήθεια απέναντι στην ανάγκη του φίλου· χρησιµοποιείται η ίδια επταβάθµια κλίµακα.

efficacy: η άποψη εκείνου που παρέχει τη βοήθεια σχετικά µε την επάρκειά του να παρέχει βοήθειας (self efficacy)· χρησιµοποιείται η ίδια κλίµακα.

severity: Η σοβαρότητα του προβλήµατος που αντιµετωπίζει ο φίλος, όπως εκλαµβάνεται απ’ αυτόν που παρέχει τη βοήθεια· χρησιµοποιείται η ίδια κλίµακα.

empatened: Η τάση συναισθηµατικής κατανόησης εκείνου που παρέχει τη βοήθεια, όπως αυτή µετράται από κάποιο τεστ προσωπικότητας.

ΙV. HELPING2.SAV

Page 63: Notes Spss

Ένα αρχείο µε πραγµατικά δεδοµένα (Ν = 517) που αφορούν παρόµοια θέµατα µε αυτά του αρχείου helping1.sav. Παρότι το αρχείο είναι µεγάλο (τόσο σε αριθµό παρατηρήσεων όσο και σε αριθµό µεταβλητών), χρησιµοποιούνται µόνο τα 15 από τα µέτρα της αυτοαξιολόγηση1 των δυνατοτήτων κάποιου (self-efficacy) και οι 14 ερωτήσεις σχετικά µε τη συναισθηµατική κατανόηση για να παρουσιάσουν την ανάλυση παραγόντων (Κεφάλαιο 7). Τα ονόµατα των µεταβλητών που χρησιµοποιούνται στην ανάλυση είναι, µεταξύ άλλων:

effic έως effic15: οι 15 ερωτήσεις σχετικά µε την αυτοαξιολόγηση που χρησιµοποιούνται στην παρουσίαση της ανάλυσης παραγόντων.

empathy1 έως empathy14: Οι 14 ερωτήσεις σχετικά µε την τάση για συναισθηµατική κατανόηση που χρησιµοποιούνται στην παρουσίαση της ανάλυσης αξιοπιστίας.

12

∆ΙΑΣΤΑΥΡΩΣΗ ΠΙΝΑΚΩΝ

Και ανάλυση χ2

∆ιασταύρωση πινάκων

Έλεγχοι ανεξαρτησίας chi-square (χ2)

Βήµα προς Βήµα

Αποτελέσµατα

Ορισµοί Όρων

1 Στο εξής, η συγκεκριµένη µεταβλητή, για συντοµία, θα αναφέρεται µε τον όρο «αυτοαξιολόγηση» 2 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 8 του βιβλίου των George και Mallery

Page 64: Notes Spss

Ο ΣΚΟΠΟΣ της διασταύρωσης πινάκων (crosstabulation) είναι να παρουσιάσει σε µορφή πίνακα τη σχέση µεταξύ δύο ή περισσότερων ποιοτικών µεταβλητών. Οι ποιοτικές µεταβλητές περιλαµβάνουν εκείνες στις οποίες ενυπάρχουν διακριτές κατηγορίες, όπως το φύλο (γυναίκα, άνδρας), η εθνικότητα (Ασιάτες, Λευκοί, ισπανόφωνοι), τόπος κατοικίας (πόλη, προάστια, εξοχή), απαντήσεις (ναι, όχι), βαθµός (A, B, C, D, F) και πολλές άλλες. Η διασταύρωση πινάκων µπορεί να χρησιµοποιηθεί για συνεχή δεδοµένα µόνον αν τα δεδοµένα αυτά είναι χωρισµένα σε διακριτές κατηγορίες, όπως η ηλικία (0-19 έτη, 20-39 έτη, 40-59 έτη, 60-79 έτη, 80-99 έτη), το σύνολο βαθµών (0-99, 100- 149, 150-199, 200-250), και ούτω καθ’ εξής. Παρόλο που είναι αποδεκτό να κάνετε διασταύρωση πινάκων µε συνεχή δεδοµένα που έχουν κατηγοριοποιηθεί, είναι σπάνιο να κάνετε ανάλυση chi-square µε συνεχή δεδοµένα επειδή κατά τη διάρκεια της κατηγοριοποίησης χάνονται πολλές χρήσιµες πληροφορίες. Για παράδειγµα, στην κατανοµή του συνόλου των βαθµών (παραπάνω), δύο άτοµα που συγκέντρωσαν 99 και 100 βαθµούς αντίστοιχα, θα βρίσκονταν στην πρώτη και δεύτερη κατηγορία και θα θεωρούνταν πανοµοιότυποι µε δύο άτοµα που συγκέντρωσαν 0 και 149 βαθµούς, αντίστοιχα. Παρόλα αυτά η διασταύρωση πινάκων µε συνεχή δεδοµένα χρησιµοποιείται συχνά για λόγους περιγραφής και παρουσίασης δεδοµένων. Η εντολή του SPSS Crosstabs (=διασταυρωµένοι πίνακες) και οι υποεντολές Cells (=κελιά) και Statistics (=στατιστικά στοιχεία) χρησιµοποιούνται για να αποκτήσει κανείς πρόσβαση σε όλες τις απαραίτητες πληροφορίες σχετικά µε τις συγκρίσεις µεταξύ συχνοτήτων.

∆ΙΑΣΤΑΥΡΩΣΗ ΠΙΝΑΚΩΝ

Ενώ η εντολή Frequencies µπορεί να µας πει ότι υπάρχουν 5 Ιθαγενείς, 20 Ασιάτες, 24 Μαύροι, 45 Λευκοί, και 11 ισπανόφωνοι (και ότι υπάρχουν 64 γυναίκες και 41 άνδρες) στο αρχείο grades.sav, δεν µπορεί να µας πει πόσες γυναίκες Ασιάτισσες ή πόσοι Λευκοί άνδρες υπάρχουν. Αυτή είναι η λειτουργία της εντολής Crosstabs. Θα ήταν σωστό να «διασταυρώσουµε» δύο µεταβλητές (την ethnic µε τη sex) για να απαντήσουµε τις ερωτήσεις που τίθενται παραπάνω. Αυτό θα είχε σαν αποτέλεσµα έναν πίνακα µε 10 διαφορετικά κελιά µε τις σχετικές συχνότητες σε καθένα από αυτά διασταυρώνοντας τα δύο (2) επίπεδα του φύλου (sex) µε τα πέντε (5) επίπεδα της εθνικότητας (ethnic). Είναι δυνατό να διασταυρώσετε τρεις ή περισσότερες µεταβλητές, παρόλο που κάποιος ερευνητής θα έκανε διασταύρωση πινάκων µε τρεις µεταβλητές µόνον αν διέθετε ένα πολύ µεγάλο σύνολο δεδοµένων γιατί διαφορετικά θα υπήρχαν πολλά κελιά µε ελάχιστα δεδοµένα -ακόµα και άδεια κελιά, αν ο αριθµός των παρατηρήσεων δεν ήταν επαρκής. Για το δείγµα που έχουµε εδώ µια διασταύρωση των µεταβλητών ethnic, sex, grade µάλλον δεν συνιστάται. Η διαδικασία θα δηµιουργούσε µια παρουσίαση συχνοτήτων 5 (ethnic) x 2(sex) x 5 (grade) – ένα σύνολο από 50 κελιά που θα έπρεπε να συµπληρωθούν µε 105 µόνον παρατηρήσεις. Σ’ αυτή την περίπτωση θα υπήρχε σίγουρα ένας µεγάλος αριθµός κελιών µε ελάχιστα ή καθόλου δεδοµένα. Αν µια τέτοια διασταύρωση πινάκων δηµιουργούνταν µε µεγαλύτερο δείγµα, το SPSS θα παρήγαγε πέντε διαφορετικούς πίνακες 5x2 για να παρουσιάσει αυτά τα δεδοµένα.

ΕΛΕΓΧΟΙ ΑΝΕΞΑΡΤΗΣΙΑΣ CHI-SQUARE (χ2)

Μαζί µε τις συχνότητες ( ή πραγµατικές τιµές) µέσα σε κάθε κελί του πίνακα διπλής εισόδου, το SPSS µπορεί να υπολογίσει την αναµενόµενη τιµή για κάθε κελί. Η αναµενόµενη τιµή βασίζεται στην υπόθεση ότι οι δύο µεταβλητές είναι ανεξάρτητες µεταξύ τους. Με ένα απλό παράδειγµα θα παρουσιάσουµε πώς προκύπτει η αναµενόµενη τιµή. Υποθέστε ότι υπάρχει µια οµάδα 100 ανθρώπων σε ένα δωµάτιο εκ

Page 65: Notes Spss

των οποίων οι 30 είναι άνδρες και οι 70 γυναίκες. Αν υπάρχουν 10 Ασιάτες στην οµάδα, θα προσδοκούσαµε (αναµενόµενη τιµή) –αν οι δύο µεταβλητές είναι ανεξάρτητες µεταξύ τους—ότι ανάµεσα στους 10 Ασιάτες θα υπήρχαν 3 άνδρες και 7 γυναίκες (η ίδια αναλογία που παρατηρείται και στο σύνολο της οµάδας). Πάντως, στην ίδια οµάδα των 100, αν 10 απ’ αυτούς έπαιζαν ποδόσφαιρο δεν θα περιµέναµε 3 άνδρες παίκτες και 7 γυναίκες παίκτριες. Στην σύγχρονη κοινωνία, οι περισσότεροι ποδοσφαιριστές είναι άνδρες και οι δύο κατηγορίες (φύλο και παίκτης ποδοσφαίρου) δεν είναι ανεξάρτητες µεταξύ τους. Αν δεν υπήρχαν καθόλου επιπλέον πληροφορίες, θα περιµέναµε ότι και οι 10 παίκτες θα ήταν άνδρες. Ο σκοπός ενός ελέγχου ανεξαρτησίας chi-square είναι να καθορίσει αν οι πραγµατικές τιµές για τα κελιά αποκλίνουν σηµαντικά από τις αντίστοιχες αναµενόµενες τιµές. Τα στατιστικά µέτρα για την chi-square υπολογίζονται αθροίζοντας τα τετράγωνα των αποκλίσεων [πραγµατική τιµή (f0) µείον την αναµενόµενη τιµή (fe)] διαιρεµένα µε την αναµενόµενη τιµή για κάθε κελί:

χ2 = Σ[(f0 -fe)2/fe]

Όπως µπορείτε να δείτε, αν υπάρχει µεγάλη ασυµφωνία µεταξύ των πραγµατικών και των αναµενόµενων τιµών, το µέτρο της χ2 θα είναι µεγάλο, υποδηλώνοντας σηµαντική διαφορά µεταξύ των πραγµατικών και των αναµενόµενων τιµών. Μαζί µε το µέτρο αυτό υπολογίζεται και µια τιµή πιθανότητας. Με p < 0.05, είναι κοινώς αποδεκτό ότι οι τιµές που παρατηρήθηκαν διαφέρουν σηµαντικά από τις αναµενόµενες τιµές και ότι οι δύο µεταβλητές ∆ΕΝ είναι ανεξάρτητες µεταξύ τους. Πληρέστερες περιγραφές και ορισµοί συµπεριλαµβάνονται στην ενότητα των αποτελεσµάτων αυτού του κεφαλαίου.

Ένα επιπλέον ζήτηµα είναι το γεγονός ότι ένα µέτρο της chi-square θεωρείται συχνά έλεγχος σχέσης (το αντίθετο της ανεξαρτησίας) µεταξύ µεταβλητών. Αυτή η άκυρη υπόθεση µπορεί να δηµιουργήσει δυσκολίες επειδή µια τιµή chi-square εξαρτάται σηµαντικά από τον αριθµό των διαστάσεων και το µέγεθος του δείγµατος κι εποµένως οι συγκρίσεις µιας τιµής chi-square µε µια άλλη είναι συχνά παραπλανητικές. Για να ελέγξουµε αυτή τη δυσκολία, ο Pearson πρότεινε το µέτρο (φ), το οποίο διαιρεί την τιµή της chi-square µε το πλήθος του δείγµατος (Ν) και στη συνέχεια λαµβάνει τη θετική τετραγωνική ρίζα του αποτελέσµατος. Ο σκοπός ήταν να τυποποιηθεί ένα µέτρο σχέσης σε τιµές ανάµεσα στο 0 και το 1 (µε το 0 να υποδηλώνει εντελώς ανεξάρτητες µεταβλητές και µια τιµή κοντά στο 1 να υποδηλώνει µια ισχυρή σχέση µεταξύ µεταβλητών). Παρόλα αυτά, αν µία από τις διαστάσεις της διασταύρωσης είναι µεγαλύτερη του 2, το φ µπορεί να πάρει τιµή µεγαλύτερη του 1.0. Για να ελεγχθεί αυτό παρουσιάστηκε το Cramér’s V(η θετική τετραγωνική ρίζα του χ2/[Ν(k-1)], όπου k είναι ο µικρότερος από τον αριθµό των στηλών και των γραµµών). Αυτό το µέτρο όντως ποικίλει ανάµεσα στο 0 και το 1.0 και είναι ένα ευρέως χρησιµοποιούµενο µέτρο για τη δύναµη της σχέσης µεταξύ των µεταβλητών σε µια ανάλυση chi-square.

Το αρχείο που χρησιµοποιούµε για να παρουσιάσουµε τα Crosstabs στο παράδειγµά µας περιγράφεται στο πρώτο κεφάλαιο. Το αρχείο καλείται grades. sav κι έχει αριθµό παρατηρήσεων Ν = 105. Η ανάλυση που παρουσιάζουµε στη συνέχεια δηµιουργεί διασταυρώσεις πινάκων και υπολογίζει στατιστικές chi-square για τις µεταβλητές sex και ethnic.

ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

∆ιασταύρωση Πινάκων και Έλεγχοι Ανεξαρτησίας Chi-Square

Από το Μενού Analyze, επιλέγεται την εντολή Descriptive Statistics και στη συνέχεια την υποεντολή Corsstabs.

Page 66: Notes Spss

Ένα νέο παράθυρο εµφανίζεται τώρα (Οθόνη 1.1, παρακάτω) που παρέχει το σκελετό για τη διεξαγωγή µιας ανάλυσης διασταύρωσης πινάκων. Η διαδικασία που πρέπει να ακολουθήσετε είναι να κάνετε κλικ στην επιθυµητή µεταβλητή από τη λίστα που βρίσκεται αριστερά (τη sex σ’ αυτό το παράδειγµα), στη συνέχεια κλικ στο βέλος ( ) που βρίσκεται πάνω πάνω για να δηλώσετε ότι επιθυµείτε το φύλο να είναι η µεταβλητή που αντιστοιχεί στις γραµµές του πίνακα. Στη συνέχεια κάντε κλικ σε µια δεύτερη µεταβλητή (την ethnic σ’ αυτό το παράδειγµα) και κάντε κλικ στο µεσαίο βέλος (για να δηλώσετε ότι επιθυµείτε η εθνικότητα να είναι η µεταβλητή που αντιστοιχεί στις στήλες). Αυτό είναι το µόνο απαραίτητο για τη δηµιουργία µιας διασταύρωσης πινάκων για δύο µεταβλητές. Αυτό θα δηµιουργήσει έναν πίνακα 2 (sex) επί 5 (ethnic) που περιέχει 10 κελιά.

Οθόνη 1.1

Το Παράθυρο Crosstabs

Το τρίτο πλαίσιο στο παράθυρο επιτρέπει τη διασταύρωση πινάκων για τρεις ή περισσότερες µεταβλητές. Αν, για παράδειγµα, θέλαµε να βρούµε το φύλο κατά εθνικότητα για τα τρία τµήµατα, θα κάναµε κλικ στη µεταβλητή section στη λίστα µε τις µεταβλητές και στη συνέχεια κλικ στο βέλος που βρίσκεται κάτω κάτω. Αυτό θα είχε σαν αποτέλεσµα τρεις πίνακες: Έναν µε το φύλο κατά εθνικότητα για το πρώτο τµήµα, ένα µε το φύλο κατά εθνικότητα για το δεύτερο τµήµα, κι ένα µε το φύλο κατά εθνικότητα για το τρίτο τµήµα. Τα πλήκτρα Previous (=προηγούµενο) και Next (=επόµενο) στα αριστερά και δεξιά του Layer 1 of 1 θα χρησιµοποιούνταν αν θέλαµε την ανάλυση για το φύλο κατά εθνικότητα για περισσότερες από µία µεταβλητές. Για παράδειγµα, αν θέλατε αυτή την ανάλυση και για κάθε τµήµα και για κάθε έτος (έτος στο σχολείο), θα έπρεπε να κάνετε κλικ στη µεταβλητή section (=τµήµα), κλικ στο βέλο κάτω κάτω, κλικ στο Next, κλικ στο year (=έτος), και στη συνέχεια κλικ ξανά στο βέλος κάτω κάτω. Αυτό θα είχε σαν αποτέλεσµα τρεις 2 x 5 πίνακες για το τµήµα και τέσσερις 2 x 5 πίνακες για το έτος.

Είναι σπάνιο για έναν ερευνητή να θέλει να υπολογίσει µόνο κελιά συχνοτήτων. Μαζί µε τις συχνότητες είναι δυνατό να συµπεριλάβετε µέσα σε κάθε κελί µια σειρά επιπλέον επιλογών. Αυτές που χρησιµοποιούνται πιο συχνά παρουσιάζονται παρακάτω συνοδευόµενες από ένα σύντοµο ορισµό. Όταν πατήσετε το πλήκτρο Cells (= κελιά)

Page 67: Notes Spss

(Οθόνη 1.1), εµφανίζεται µια καινούρια οθόνη (Οθόνη 1.2, παρακάτω) που σας επιτρέπει να σηµειώσετε µια σειρά επιλογών. Ο αριθµός παρατηρήσεων Observed είναι η αρχικά επιλεγµένη. Ο αριθµός παρατηρήσεων Expected (συχνά αναφερόµαστε σ’ αυτόν ως αναµενόµενη τιµή) είναι σε πολλές περιπτώσεις επίσης επιθυµητή επιλογή. Το αν θα συµπεριληφθούν κι άλλες τιµές εξαρτάται από την προτίµηση του ερευνητή.

Οθόνη 1.2

Το Παράθυρο Crosstabs: Cell Display

o Observed Count (=εκτίµηση που έχει παρατηρηθεί)

Ο πραγµατικός αριθµός παρατηρήσεων σε κάθε κελί.

o Expected Count (=αναµενόµενη εκτίµηση)

Η αναµενόµενη τιµή για κάθε κελί.

o Row Percentages (=ποσοστά γραµµών)

Το ποσοστό των τιµών σε κάθε κελί γι’ αυτή τη γραµµή.

o Column Percentages (=ποσοστά στηλών)

Το ποσοστό των τιµών σε κάθε κελί γι’ αυτή τη στήλη.

o Total Percentages (=συνολικά ποσοστά)

Το ποσοστό των τιµών σε κάθε κελί για ολόκληρο τον πίνακα.

o Unstandardized Residuals (=µη τυποποιηµένα υπόλοιπα)

Πραγµατική τιµή µείον αναµενόµενη τιµή.

Μέχρι τώρα έχουµε απλώς δηµιουργήσει πίνακες µε νούµερα στα κελιά τους. Συνήθως, µαζί µε τη διασταύρωση πινάκων, γίνεται και µια ανάλυση chi-square. Αυτό απαιτεί ένα κλικ στο πλήκτρο statistics (δείτε Οθόνη 1.1). Όταν κάνουµε κλικ σ’ αυτό το πλήκτρο, ανοίγει ένα νέο παράθυρο (Οθόνη 1.3, παρακάτω). Εδώ υπάρχουν πολλοί διαφορετικοί έλεγχοι ανεξαρτησίας ή σχέσης. Εµείς θα εξετάσουµε µόνον τους ελέγχους Chi-square και Phi and Cramér’s V. Όπως και στο παράθυρο Cells, η διαδικασία είναι να κάνουµε κλικ στο µικρό κουτί στα αριστερά του επιθυµητού στατιστικού µέτρου πριν επιστρέψουµε στην προηγούµενη οθόνη για να κάνουµε την ανάλυση.

Page 68: Notes Spss

Οθόνη 1.3

Το Παράθυρο Crosstabs: Statistics

Συχνά θέλουµε να κάνουµε µια διασταύρωση πινάκων ή µια ανάλυση chi-square σ’ ένα υποσύνολο µιας συγκεκριµένης µεταβλητής. Για παράδειγµα, στη διασταύρωση των µεταβλητών sex και ethnic που περιγράφηκε νωρίτερα, µπορεί να θέλουµε να εξαιρέσουµε την κατηγορία «Ιθαγενείς» από την ανάλυση µιας και υπάρχουν µόλις 5 τέτοιες παρατηρήσεις και προηγούµενες αναλύσεις έδειξαν ότι υπάρχει πρόβληµα µε κελιά που έχουν χαµηλό αριθµό παρατηρήσεων. Αυτό σηµαίνει δηµιουργία µιας 2 (επίπεδα φύλου) x 4 (επίπεδα εθνικότητας µετά την εξαίρεση του πρώτου επιπέδου) ανάλυσης. Αφού έχετε επιλέξει τις µεταβλητές για τη διασταύρωση πινάκων, έχετε επιλέξει τις τιµές των κελιών και τα επιθυµητά στατιστικά µεγέθη, τότε κάντε κλικ στην εντολή Data (=δεδοµένα) στη κεντρική µπάρα στο πάνω µέρος της οθόνης. Σ’ αυτό το µενού επιλογών που ανοίγει παρακάτω, κάντε κλικ στο Select Cases (επιλογή περιπτώσεων). Στο παράθυρο που εµφανίζεται, κάντε κλικ στο κυκλάκι στα δεξιά του Ιf condition is satisfied (=αν ικανοποιείται η συνθήκη) (έτσι ώστε να εµφανιστεί µια µαύρη τελεία στο εσωτερικό του), στη συνέχεια κάντε κλικ στο πλήκτρο If ακριβώς από κάτω.

Ένα νέο πλαίσιο διαλόγου ανοίγει ξανά (µε τίτλο Select Cases: If(=επιλέξτε παρατηρήσεις: αν)). Το παράθυρο δίνει πρόσβαση σε µια µεγάλη ποικιλία λειτουργιών, στις οποίες έχουµε αναφερθεί σε προηγούµενη ενότητα. Προς το παρόν µας ενδιαφέρει µόνο πώς θα επιλέξουµε τα επίπεδα 2, 3, 4, και 5 της µεταβλητής ethnic. Πρώτο βήµα είναι να επιλέξετε την ethnic από τη λίστα µεταβλητών στα αριστερά, στη συνέχεια να κάνετε κλικ στο για να επικολλήσετε τη µεταβλητή στο «ενεργό» πλαίσιο, στη συνέχεια κλικ στο >= (στο µικρό πληκτρολόγιο κάτω από το ενεργό πλαίσιο), κι ύστερα κλικ στο 2. Έχετε τώρα δηλώσει ότι θέλετε να επιλέξετε όλα τα επίπεδα της ethnic που είναι µεγαλύτερα ή ίσα του 2. Στη συνέχεια κάντε κλικ στο Continue, κλικ στο ΟΚ, κλικ στο ΟΚ της Οθόνης 1.1 και η ανάλυσή σας θα ολοκληρωθεί µε τέσσερα µόνο επίπεδα εθνικότητας.

ΑΠΟΤΕΛΕΣΜΑΤΑ (OUTPUT)

∆ιασταύρωση Πινάκων και Αναλύσεις Chi-Square (χ2)

Αυτό που ακολουθεί είναι τµήµα των αποτελεσµάτων που προκύπτουν από τα βήµατα που έχουµε περιγράψει.

Page 69: Notes Spss

Πίνακας: SPSS for Windows: Crostabulation and Chi-square analyses

SEX * ETHNIC Crosstabulation

4 13 14 26 7 643,0 12,2 14,6 27,4 6,7 64,01,0 ,8 -,6 -1,4 ,3

1 7 10 19 4 412,0 7,8 9,4 17,6 4,3 41,0

-1,0 -,8 ,6 1,4 -,35 20 24 45 11 105

5,0 20,0 24,0 45,0 11,0 105,0

CountExpected CountResidualCountExpected CountResidualCountExpected Count

Female

Male

SEX

Total

Native Asian Black White HispanicETHNIC

Total

Chi-Square Tests

1,193a 4 ,8791,268 4 ,867

,453 1 ,501

105

Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)

3 cells (30,0%) have expected count less than 5. Theminimum expected count is 1,95.

a.

Symmetric Measures

,107 ,879,107 ,879105

PhiCramer's V

Nominal byNominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the nullhypothesis.

b.

Το τελικό βήµα στην ερµηνεία µιας διασταύρωσης πινάκων ή µιας ανάλυσης chi-square είναι να παρατηρήσετε τις πραγµατικές τιµές και τις αναµενόµενες τιµές σε κάθε κελί. Με την πρώτη µατιά βλέπουµε ότι οι πραγµατικές τιµές και οι αναµενόµενες τιµές είναι αρκετά όµοιες. Η µεγαλύτερη συµφωνία είναι για τους Λευκούς (γυναίκες, 26 πραγµατική εκτίµηση, 27.4 αναµενόµενη· και άνδρες 19 πραγµατική εκτίµηση, 17.6 αναµενόµενη). Προσέξτε επίσης ότι η τιµή των υπολοίπων (ο αριθµός κάτω από τους άλλους δύο) είναι απλώς η πραγµατική τιµή µείον την αναµενόµενη. Ακόµη και χωρίς να κοιτάξετε στα στατιστικά µέτρα της chi-square θα περιµένατε ότι οι πραγµατικές και οι αναµενόµενες τιµές δεν θα διαφέρουν σηµαντικά (δηλαδή το φύλο και η εθνικότητα σ’ αυτό το δείγµα είναι ανεξάρτητα µεταξύ τους). Τα αποτελέσµατα υποστηρίζουν αυτή την παρατήρηση αφού δίνουν µια χαµηλή τιµή της chi-square (1.19288) και σηµαντικότητα µεγαλύτερη του 0.8 (0.87927). Προσέξτε ότι τα µέτρα

Page 70: Notes Spss

σχέσης είναι επίσης µικρά και δεν προσεγγίζουν τη σηµαντικότητα. Όπως προτάθηκε στην ενότητα Βήµα προς Βήµα, τα κελιά µε µικρό αριθµό παρατηρήσεων αποτελούν πρόβληµα. Τρία από τα 10 έχουν αναµενόµενη τιµή µικρότερη του 5. Η συνήθης απάντηση θα ήταν να ξανακάνουµε την ανάλυση αφού εξαιρέσουµε την κατηγορία «Ιθαγενείς» (Native). Για περαιτέρω βοήθεια στην κατανόηση, ακολουθούν οι ορισµοί των όρων που υπάρχουν στα αποτελέσµατα.

Όρος Ορισµός/ Περιγραφή COUNT (=ΕΚΤΙΜΗΣΗ)

Ο πρώτος αριθµός σε κάθε ένα από τα 10 κελιά (4, 13, 14,...) δείχνει τον αριθµό των παρατηρήσεων σε κάθε κατηγορία

EXP. COUNT (=ΑΝΑΜΕΝΟΜΕΝΗ ΕΚΤΙΜΗΣΗ)

Ο δεύτερος αριθµός σε κάθε ένα από τα 10 κελιά (3.0, 12.2, 14.6,...), δείχνει τον αριθµό που θα εµφανίζονταν αν οι δύο µεταβλητές ήταν τελείως ανεξάρτητες µεταξύ τους.

RESIDUAL (=ΥΠΟΛΟΙΠΟ)

Η πραγµατική τιµή µείον την αναµενόµενη τιµή.

ROW TOTAL (=ΣΥΝΟΛΟ ΓΡΑΜΜΩΝ)

Ο συνολικός αριθµός των παρατηρήσεων σε κάθε γραµµή (64 γυναίκες, 41 άνδρες)

COLUMN TOTAL (=ΣΥΝΟΛΟ ΣΤΗΛΩΝ)

Ο συνολικός αριθµός των παρατηρήσεων σε κάθε κατηγορία για κάθε στήλη (5 Αµερικανοί Ινδιάνοι, 20 Ασιάτες, 24 Μαύροι, 45 Λευκοί, 11 Ισπανόφωνοι).

CHI SQUARE: PEARSON and LIKELIHOOD RATIO (=χ2: ΛΟΓΟΣ PEARSON και ΠΙΘΑΝΟΤΗΤΑΣ)

∆ύο διαφορετικές µέθοδοι για υπολογισµό των στατιστικών της chi-square. Όταν το N είναι µεγάλο, αυτές οι δύο τιµές θα είναι σχεδόν ίσες. Η εξίσωση για την Pearson chi-square είναι:

χ2 = Σ[(f0 -fe)2/fe]

VALUE (=TIMH) Για τις µεθόδους PEARSON και MAXIMUM LIKELIHOOD, καθώς η τιµή του ελέγχου µεγαλώνει, η πιθανότητα οι δύο µεταβλητές να µην είναι ανεξάρτητες (π.χ. είναι εξαρτηµένες) επίσης αυξάνει. Οι τιµές που είναι κοντά στο 1 (1.193, 1.268) υποδηλώνουν ότι η ισορροπία του φύλου δεν εξαρτάται από το ποιες εθνικότητες εµπλέκονται.

DEGREES OF FREEDOM (=ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ)

Οι βαθµοί ελευθερίας είναι ο αριθµός των επιπέδων στην πρώτη µεταβλητή µείον 1 (2 - 1 = 1) επί τον αριθµό των επιπέδων στη δεύτερη µεταβλητή µείον 1 (5 – 1 = 4). ∆ηλαδή 1 x 4 = 5.

SIGNIFICANCE (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ)

Η πιθανότητα αυτά τα αποτελέσµατα να προέκυψαν τυχαία. Η µεγάλη τιµή p εδώ υποδηλώνει ότι οι πραγµατικές τιµές δεν διαφέρουν σηµαντικά από τις αναµενόµενες τιµές.

LINEAR-BY-LINEAR ASSOCIATION (=ΓΡΑΜΜΙΚΗ ΠΡΟΣ ΓΡΑΜΜΙΚΗ ΣΧΕΣΗ)

Αυτό το στατιστικό µέτρο ελέγχει αν οι δύο µεταβλητές συσχετίζονται µεταξύ τους. Το µέτρο αυτό είναι συχνά ασήµαντο επειδή δεν υπάρχει λογική ή αριθµητική σχέση µε τη σειρά των µεταβλητών. Για παράδειγµα, δεν υπάρχει λογική σειρά (από µια χαµηλή τιµή σε µια υψηλή) για την εθνικότητα. Εποµένως, η συσχέτιση µεταξύ του φύλου και της εθνικότητας είναι ασήµαντη. Αν πάντως η δεύτερη µεταβλητή ήταν το εισόδηµα, διατεταγµένο από το χαµηλότερο στο υψηλότερο, το αποτέλεσµα θα ήταν µια έγκυρη συσχέτιση.

MINIMUM EXPECTED COUNT (=ΕΛΑΧΙΣΤΗ

Η ελάχιστη αναµενόµενη εκτίµηση είναι για το πρώτο κελί στη δεύτερη γραµµή (άνδρας, Αµερικάνος Ινδιάνος). Η

Page 71: Notes Spss

ΑΝΑΜΕΝΟΜΕΝΗ ΕΚΤΙΜΗΣΗ)

αναµενόµενη τιµή εκεί στρογγυλοποιείται στο κοντινότερο δεκαδικό (2.0). Η τιµή µε δύο δεκαδικά είναι 1.95.

PHI (=ΦΙ) Ένα µέτρο της δύναµης της συσχέτισης µεταξύ δύο ονοµαστικών µεταβλητών. Μια τιµή 0.10659 αντιπροσωπεύει µια πολύ αδύναµη συσχέτιση µεταξύ του φύλου και της εθνικότητας. Η συνάρτηση

φ= N/2χ

CELLS WITH EXPECTED COUNT <5 (=ΚΕΛΙΑ ΜΕ ΑΝΑΜΕΝΟΜΕΝΗ ΕΚΤΙΜΗΣΗ <5)

Τρία από τα 10 κελιά έχουν αναµενόµενη συχνότητα µικρότερη από 5. Αν έχετε πολλά κελιά µε µικρό αριθµό παρατηρήσεων (περισσότερα από το 25% είναι ένα αποδεκτό κριτήριο), η συνολική τιµή της chi-square είναι λιγότερο πιθανό να είναι έγκυρη.

CRAMÉR’S V Ένα µέτρο για την ισχύ της σχέσης µεταξύ δύο ονοµαστικών µεταβλητών. ∆ιαφέρει από την phi στο ότι η Cramér’s V ποικίλει αυστηρά µεταξύ 0 και 1, ενώ σε συγκεκριµένες περιπτώσεις η phi µπορεί να είναι µεγαλύτερη του 1. Ακολουθεί η εξίσωση: (Σηµείωση: ο k είναι ο µικρότερος από τον αριθµό των γραµµών και των στηλών)

V= 1)]−κχ /[Ν[2

APPROXIMATE SIGNIFICANCE (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ ΚΑΤΑ ΠΡΟΣΕΓΓΙΣΗ)

Είναι ίδιο µε τη σηµαντικότητα για την Pearson και την chi-square. Η υψηλή τιµή (0.87927) υποδηλώνει πολύ αδύναµη σχέση.

Page 72: Notes Spss

23

∆ιµεταβλητή

ΣΥΣΧΕΤΙΣΗ

Τι είναι Συσχέτιση;

Γραµµική vs. Καµπυλόγραµµη

Σηµαντικότητα

∆ιεύθυνση Αιτιότητας

Μερικές Συσχετίσεις

Βήµα προς Βήµα

Αποτελέσµατα

3 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 10 του βιβλίου των George και Mallery

Page 73: Notes Spss

Οι συσχετίσεις µπορούν να υπολογιστούν χρησιµοποιώντας την εντολή Correlate(=συσχετίζω) του SPSS. Οι συσχετίσεις προσδιορίζονται µε το µικρό γράµµα r και οι τιµές τους κυµαίνονται από -1 έως 1. Η συσχέτιση συνήθως καλείται διµεταβλητή συσχέτιση για να υποδηλώσει µια απλή συσχέτιση µεταξύ δύο µεταβλητών, σε αντίθεση µε σχέσεις µεταξύ περισσότερων από δύο µεταβλητών που συχνά παρατηρούνται σε αναλύσεις πολλαπλής διακύµανσης ή στην προτυποποίηση δοµικών εξισώσεων (structural equation modeling). Η συσχέτιση καλείται επίσης Pearson r. Η φόρµουλα µε την οποία υπολογίζονται οι συσχετίσεις αποδίδεται στον Karl S. Pearson. Παρότι η Pearson r στηρίζεται στην υπόθεση ότι οι δύο εµπλεκόµενες µεταβλητές ακλουθούν περίπου την κανονική κατανοµή, ο τύπος συχνά αποδίδει καλά ακόµα κι όταν η υπόθεση της κανονικότητας δεν ικανοποιείται ή όταν µία από τις µεταβλητές δεν είναι συνεχής. Ιδανικά, όταν οι µεταβλητές δεν ακολουθούν κανονική κατανοµή, η συσχέτιση Spearman (µια τιµή που βασίζεται στη διάταξη των τιµών) είναι πιο κατάλληλη. Τόσο η συσχέτιση Pearson όσο και η συσχέτιση Spearman είναι διαθέσιµες µε τη χρήση της εντολής Correlate. Υπάρχουν κι άλλοι τύποι απ’ τους οποίους παράγονται συσχετίσεις που αντανακλούν χαρακτηριστικά διαφόρων τύπων δεδοµένων, αλλά µια τέτοια συζήτηση ξεπερνάει το σκοπό των σηµειώσεων αυτών.

ΤΙ ΕΙΝΑΙ ΣΥΣΧΕΤΙΣΗ;

Απόλυτα θετική (r = 1) συσχέτιση: Μια συσχέτιση +1 δηλώνει µια τέλεια, θετική συσχέτιση. Το «τέλεια» σηµαίνει ότι κάποια µεταβλητή είναι µε ακρίβεια προβλέψιµη από κάποια άλλη µεταβλητή. Το «θετική» σηµαίνει ότι όταν η τιµή µιας µεταβλητής αυξάνει, η τιµή της άλλης µεταβλητής επίσης αυξάνει (ή αντίθετα, καθώς µειώνεται η µία, µειώνεται επίσης και η άλλη).

Τέλειες συσχετίσεις δε βρίσκονται ουσιαστικά ποτέ στις κοινωνικές επιστήµες και υπάρχουν µόνο σε µαθηµατικούς τύπους και άµεσες φυσικές ή αριθµητικές σχέσεις. Ένα παράδειγµα θα ήταν η σχέση µεταξύ των ωρών εργασίας και του ποσού της αµοιβής που λαµβάνει κάποιος. Καθώς αυξάνει ο ένας αριθµός, αυξάνει και ο άλλος. Με δεδοµένη τη µία τιµή, είναι δυνατό να προσδιοριστεί µε ακρίβεια η άλλη τιµή.

Θετική (0 < r < 1) συσχέτιση: Μια θετική (αλλά όχι τέλεια) συσχέτιση δηλώνει ότι καθώς η τιµή µιας µεταβλητής αυξάνει, η τιµή της άλλης µεταβλητής επίσης τείνει να αυξάνει. Όσο πιο κοντά στο 1 είναι η τιµή της συσχέτισης τόσο ισχυρότερη είναι αυτή η τάση· και όσο πιο κοντά στο 0 είναι η τιµή της συσχέτισης τόσο ασθενέστερη είναι αυτή η τάση.

Ένα παράδειγµα ισχυρής θετικής συσχέτισης είναι η σχέση µεταξύ του ύψους και του βάρους των ενηλίκων ανθρώπων (r = 0.83). Οι ψηλοί άνθρωποι είναι συνήθως βαρύτεροι από τους κοντούς. Ένα παράδειγµα ασθενούς θετικής συσχέτισης είναι η σχέση µεταξύ ενός µέτρου της τάσης για συναισθηµατική κατανόηση και του µεγέθους βοήθειας που δίδεται σε κάποιον που τη χρειάζεται (r = 0.12). Άτοµα µε υψηλότερα σκορ στην τάση για συναισθηµατική κατανόηση παρέχουν µεγαλύτερη βοήθεια απ’ ότι τα άτοµα µε χαµηλότερα αντίστοιχα σκορ, αλλά η σχέση είναι ασθενής.

Καµία (r = 0) Συσχέτιση: Μια συσχέτιση ίση µε 0 δείχνει απουσία συσχέτισης µεταξύ των δύο µεταβλητών. Για παράδειγµα, δεν θα περιµέναµε να συσχετίζεται το IQ µε το ύψος.

Αρνητική (-1 < r < 0) συσχέτιση: Μια αρνητική (αλλά όχι τέλεια) συσχέτιση δηλώνει ότι καθώς η τιµή µιας µεταβλητής αυξάνει, η τιµή της άλλης µεταβλητής τείνει να µειώνεται. Όσο πιο κοντά στο -1 είναι η τιµή της συσχέτισης τόσο ισχυρότερη είναι αυτή η τάση· και όσο πιο κοντά στο 0 είναι η τιµή της συσχέτισης τόσο ασθενέστερη είναι αυτή η τάση.

Page 74: Notes Spss

Ένα παράδειγµα ισχυρής αρνητικής συσχέτισης είναι η σχέση ανάµεσα στην ανησυχία και τη συναισθηµατική σταθερότητα (r = -0.73). Άτοµα που έχουν υψηλότερα σκορ στην ανησυχία τείνουν να έχουν χαµηλότερη συναισθηµατική σταθερότητα. Μια ασθενής αρνητική συσχέτιση παρουσιάζεται στη σχέση µεταξύ του θυµού ενός ατόµου απέναντι σ’ ένα φίλο που υποφέρει από κάποιο πρόβληµα και την ποιότητα της βοήθειας που θα δώσει σ’ αυτό το φίλο (r = -0.13). Αν ο θυµός ενός ατόµου είναι µικρότερος, η ποιότητα βοήθειας είναι υψηλότερη, αλλά η σχέση είναι ασθενής.

Τέλεια αρνητική (r = -1) συσχέτιση: Ακόµα µια φορά, τέλειες συσχετίσεις (θετικές ή αρνητικές) υπάρχουν µόνον σε µαθηµατικούς τύπους και άµεσες φυσικές ή αριθµητικές σχέσεις. Ένα παράδειγµα τέλειας αρνητικής συσχέτισης βασίζεται στον τύπο απόσταση = ταχύτητα x χρόνος. Όταν οδηγείτε από το σηµείο Α στο σηµείο Β, αν οδηγήσετε δυο φορές πιο γρήγορα θα χρειαστείτε το µισό χρόνο.

ΕΠΙΠΛΕΟΝ ΖΗΤΗΜΑΤΑ

Γραµµική vs. Καµπυλόγραµµη

Είναι σηµαντικό να καταλάβετε ότι η εντολή Correlate αφορά µόνον τις γραµµικές σχέσεις. Υπάρχουν πολλές σχέσεις που δεν είναι γραµµικές. Πάρτε για παράδειγµα το άγχος πριν από κάποιες σηµαντικές εξετάσεις. Υπερβολικά πολύ ή υπερβολικά λίγο άγχος γενικώς κάνει κακό στην απόδοση ενώ σε λογικά πλαίσια συνήθως βοηθάει την απόδοση. Η σχέση σ’ ένα διάγραµµα διασποράς θα έµοιαζε µε ένα ανάποδο U αλλά ο υπολογισµός της συσχέτισης Pearson δεν θα έδειχνε καµία σχέση ή θα έδινε µια ασθενή σχέση. Πολλές φορές είναι καλή ιδέα να δηµιουργήσετε ένα διάγραµµα διασποράς για τα δεδοµένα πριν υπολογίσετε συσχετίσεις για να δείτε αν η σχέση µεταξύ δύο µεταβλητών είναι γραµµική. Αν είναι γραµµική, το διάγραµµα διασποράς θα µοιάζει λίγο πολύ µε ευθεία γραµµή. Παρότι ένα διάγραµµα διασποράς µπορεί να βοηθήσει την ανίχνευση γραµµικών ή καµπυλόγραµµων σχέσεων, είναι αλήθεια ότι µπορεί να υπάρχουν σηµαντικές συσχετίσεις ακόµη κι αν δεν µπορούν να εντοπιστούν µέσω της οπτικής ανάλυσης.

Σηµαντικότητα

Όπως και µε τις περισσότερες στατιστικές διαδικασίες, η σηµαντικότητα (ή πιθανότητα) υπολογίζεται για να καθορίσει την πιθανότητα µια συγκεκριµένη συσχέτιση να έχει προκύψει τυχαία. Η σηµαντικότητα (ή τιµή p) αντιπροσωπεύει το βαθµό σπανιότητας ενός συγκεκριµένου αποτελέσµατος. Μια τιµή σηµαντικότητας µικρότερη από 0.05 (p < 0.05) σηµαίνει ότι υπάρχει πιθανότητα µικρότερη από 5% αυτή η σχέση να προέκυψε τυχαία. Το SPSS έχει δυο διαφορετικά µέτρα σηµαντικότητας, τη µονοµερή (one-tailed) σηµαντικότητα και τη διµερή (two-tailed) σηµαντικότητα. Για να αποφασίσετε ποια θα χρησιµοποιήσετε, ο εµπειρικός κανόνας που ακολουθείται γενικά είναι να χρησιµοποιείτε τη διµερή όταν υπολογίζετε έναν πίνακα συσχετίσεων, για τις οποίες ξέρετε πολύ λίγα όσον αφορά την κατεύθυνση των συσχετίσεων. Αν όµως έχετε εκ των προτέρων προσδοκίες σχετικά µε την κατεύθυνση των συσχετίσεων (θετικές ή αρνητικές), τότε χρησιµοποιείται η µονοµερής.

Page 75: Notes Spss

Αιτιότητα

Η συσχέτιση δεν υποδεικνύει απαραίτητα και αιτιότητα. Μερικές φορές η αιτιότητα είναι σαφής. Αν το ύψος και το βάρος συσχετίζονται, είναι σαφές ότι το επιπλέον ύψος προκαλεί το επιπλέον βάρος. Η αύξηση του βάρους είναι γνωστό ότι δεν οδηγεί σε αύξηση του ύψους. Επίσης η σχέση µεταξύ φύλου και συναισθηµατικής κατανόησης δείχνει ότι οι γυναίκες τείνουν να επιδεικνύουν µεγαλύτερη συναισθηµατική κατανόηση από τους άνδρες. Αν ένας άνδρας επιδείξει µεγαλύτερη συναισθηµατική κατανόηση αυτό µάλλον δεν θα αλλάξει το φύλο του. Ακόµη µια φορά, η κατεύθυνση της αιτιότητας είναι ξεκάθαρη: το φύλο επηρεάζει την συναισθηµατική κατανόηση και όχι το αντίστροφο.

Υπάρχουν άλλα πλαίσια όπου η κατεύθυνση της αιτιότητας είναι µεν πιθανή αλλά χρήζει περαιτέρω εξέτασης. Για παράδειγµα ο βαθµός αυτοπεποίθησης ότι κάποιος έχει την ικανότητα να κάνει κάτι συσχετίζεται σηµαντικά µε τη σχετική βοήθεια που θα παρέχει. Θα σκεφτόµασταν γενικά ότι η αυτοπεποίθηση θα επηρεάσει το µέγεθος της παρεχόµενη βοήθειας, αλλά κάποιος θα µπορούσε να ισχυριστεί ότι εκείνος που βοηθάει περισσότερο ενισχύει την αυτοπεποίθησή του σαν αποτέλεσµα των πράξεών του. Η πρώτη απάντηση φαίνεται πιο ορθή αλλά και οι δύο µπορεί να είναι εν µέρει έγκυρες.

Τρίτον, µερικές φορές είναι δύσκολο να έχεις την παραµικρή ιδέα σχετικά µε το τι προκαλεί τι. Η συναισθηµατική σταθερότητα και η ανησυχία σχετίζονται σηµαντικά (οι συναισθηµατικά πιο σταθεροί άνθρωποι είναι λιγότερο ανήσυχοι). Είναι η µεγαλύτερη συναισθηµατική σταθερότητα που προκαλεί τη λιγότερη ανησυχία ή είναι η περισσότερη ανησυχία που προκαλεί τη µικρότερη συναισθηµατική σταθερότητα; Η απάντηση βεβαίως είναι ναι. Το ένα επηρεάζει το άλλο.

Τέλος υπάρχει το θέµα της τρίτης µεταβλητής. Έχει αποδειχθεί αξιόπιστα ότι οι πωλήσεις παγωτού και οι ανθρωποκτονίες στη Νέα Υόρκη σχετίζονται θετικά. Το να τρώει κανείς παγωτό τον µετατρέπει σε δολοφόνο; Μια δολοφονία δηµιουργεί όρεξη για παγωτό; Η απάντηση είναι ούτε το ένα ούτε το άλλο. Τόσο οι πωλήσεις παγωτών όσο και οι δολοφονίες συσχετίζονται µε τη ζέστη, Όταν ο καιρός είναι ζεστός γίνονται περισσότερες δολοφονίες και πωλείται περισσότερο παγωτό. Το ίδιο πράγµα συµβαίνει και µε τα αξιόπιστα ευρήµατα που λένε ότι σε πολλές πόλεις ο αριθµός των εκκλησιών συνδέεται θετικά µε τον αριθµό των µπαρ. Όχι, το να πηγαίνει κανείς στην εκκλησία δεν του προκαλεί την επιθυµία να πιει, ούτε όποιος πίνει πολύ θέλει στη συνέχεια να επισκεφτεί µια εκκλησία. Υπάρχει και πάλι µια τρίτη µεταβλητή: ο πληθυσµός. Οι µεγαλύτερες πόλεις έχουν περισσότερα µπαρ και περισσότερες εκκλησίες ενώ οι µικρότερες έχουν λιγότερα µπαρ και λιγότερες εκκλησίες.

Μερική Συσχέτιση

Αυτό το θέµα το αναφέρουµε επειδή η µερική συσχέτιση περιλαµβάνεται σαν επιλογή στο πλαίσιο της εντολής Correlate αλλά δεν θα µπούµε σε λεπτοµέρειες. Μερική συσχέτιση είναι η διαδικασία εύρεσης της συσχέτισης µεταξύ δύο µεταβλητών αφού η επιρροή άλλων µεταβλητών έχει ελεγχθεί. Αν, για παράδειγµα, υπολογίζαµε συσχέτιση ανάµεσα στο GPA και στον τελικό βαθµό µιας τάξης, θα µπορούσαµε να συµπεριλάβουµε το έτος σαν συµµεταβλητή. Θα περιµέναµε ότι οι τεταρτοετείς θα είχαν καλύτερους βαθµούς από τους πρωτοετείς. Υπολογίζοντας τη µερική συσχέτιση, που «εκτοπίζει» την επιρροή του έτους, εξαιρούµε µαθηµατικά την επιρροή των ετών φοίτησης στη συσχέτιση µεταξύ του GPA και του συνολικού βαθµού. Με την επιλογή της µερικής συσχέτισης µπορείτε να συµπεριλάβετε περισσότερες από µία µεταβλητές ως συµµεταβλητή αν υπάρχει λόγος να κάνετε κάτι τέτοιο.

Page 76: Notes Spss

Το αρχείο που χρησιµοποιούµε για να παρουσιάσουµε την εντολή Correlate είναι το παράδειγµα που έχουµε ήδη περιγράψει. Το αρχείο καλείται grades. sav κι έχει αριθµό παρατηρήσεων Ν = 105. Αυτή η ανάλυση υπολογίζει συσχετίσεις µεταξύ πέντε µεταβλητών του αρχείου: φύλο (sex), προηγούµενος µέσος όρος (GPA), πρώτο και πέµπτο πρόχειρο διαγώνισµα (quiz1, quiz5), και τελική εξέταση (final).

ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

Συσχετίσεις

Από το µενού Analyze επιλέγετε την εντολή Correlate και στη συνέχεια την υποεντολή Bivariate. Αφού κάνετε κλικ στην επιλογή Bivariate (=διµεταβλητή), ανοίγει ένα καινούριο παράθυρο (Οθόνη 2.1, παρακάτω) που ορίζει έναν αριθµό επιλογών που είναι διαθέσιµες στη διαδικασία της συσχέτισης. Πρώτον, το πλαίσιο στ’ αριστερά περιέχει όλες τις αριθµητικές µεταβλητές του αρχείου (προσέξτε την απουσία των firstname, lastnam, -- και οι δύο είναι µη αριθµητικές). Η µετακίνηση των µεταβλητών από τη λίστα στο πλαίσιο Variable(s) είναι παρόµοια µε τις διαδικασίες που ακολουθείται πάντα σε όλες τις αναλύσεις. Κάνετε κλικ στην επιθυµητή µεταβλητή της λίστας, κάνετε κλικ στο ( ) και η µεταβλητή επικολλάται στο πλαίσιο Variable(s). Η διαδικασία επαναλαµβάνεται για κάθε µεταβλητή που σας ενδιαφέρει. Επίσης, αν υπάρχει µια σειρά διαδοχικών µεταβλητών στη λίστα, µπορείτε να «κάνετε κλικ και να σύρετε» από την πρώτη µέχρι την τελευταία επιθυµητή µεταβλητή για να τις επιλέξετε όλες. Στη συνέχεια µ’ ένα κλικ στο ( ) θα επικολληθούν όλες τις σηµειωµένες µεταβλητές στο ενεργό πλαίσιο.

Οθόνη 2.1

Το Παράθυρο Bivariate Correlations

Στο επόµενο πλαίσιο που ονοµάζεται Correlation Coefficients (=Συντελεστές Συσχέτισης) ο Pearson r είναι η προεπιλογή. Αν τα δεδοµένα σας δεν ακολουθούν την κανονική κατανοµή τότε επιλέξτε Spearman. Μπορείτε να διαλέξετε και τις δυο επιλογές και να δείτε πώς διαµορφώνονται οι τιµές.

Κάτω από τον τίτλο Test of Significance (=έλεγχος σηµαντικότητας), είναι προεπιλεγµένο το Two-tailed. Κάντε κλικ στο One-tailed αν έχετε σαφή γνώση της κατεύθυνσης (θετική ή αρνητική) των συσχετίσεών σας.

Page 77: Notes Spss

Η επιλογή Flag significant correlations (=σηµείωση των σηµαντικών συσχετίσεων) είναι εξ’ αρχής σηµειωµένη και τοποθετεί έναν αστερίσκο (*) ή έναν διπλό αστερίσκο (**) δίπλα στις συσχετίσεις που επιτυγχάνουν ένα συγκεκριµένο επίπεδο σηµαντικότητας (συνήθως 0,05 και 0,01). Άσχετα µε το αν σηµειώνονται οι σηµαντικές τιµές ή όχι, θα συµπεριλαµβάνονται η συσχέτιση, η σηµαντικότητα µε ακρίβεια τριών δεκαδικών και ο αριθµός των παρατηρήσεων που εµπλέκονται σε κάθε συσχέτιση.

Για τις αναλύσεις που παρουσιάζονται σ’ αυτό το κεφάλαιο θα µείνουµε στη συσχέτιση Pearson, τον έλεγχο σηµαντικότητας Two-tailed και θα διατηρήσουµε ενεργή την επιλογή Flag significant correlations. Αν θέλετε διαφορετικές επιλογές, απλώς κάντε κλικ στην αντίστοιχη διαδικασία για να επιλέξετε ή να αποεπιλέξετε πριν κάνετε κλικ στο τελικό ΟΚ.

Επιπλέον διαδικασίες είναι διαθέσιµες αν κάνετε κλικ στο πλήκτρο Options στην κάτω δεξιά γωνία της Οθόνης 2.1. Αυτό το παράθυρο (Οθόνη 2.2, παρακάτω) σας επιτρέπει να επιλέξετε πρόσθετα στατιστικά στοιχεία και να ασχοληθείτε µε τα κενά στα δεδοµένα σας (missing values) µε δύο διαφορετικούς τρόπους. Οι µέσοι και οι τυπικές αποκλίσεις µπορούν να συµπεριληφθούν κάνοντας κλικ στην κατάλληλη εντολή (Means and standard deviations) καθώς και οι αποκλίσεις και συνδιακυµάνσεις µεταξύ των γινοµένων (Cross-product deviations and covariances).

Οθόνη 2.2

Το Παράθυρο Bivariate Correlations: Options

Η εντολή Exclude cases pairwise (=εξαίρεση παρατηρήσεων κατά ζεύγη) σηµαίνει ότι για µια συγκεκριµένη συσχέτιση στη µήτρα, αν µια παρατήρηση έχει ένα ή δύο κενά στα δεδοµένα που αφορούν αυτή τη σύγκριση, τότε η επίδραση αυτής της παρατήρησης δεν θα συµπεριληφθεί στη συγκεκριµένη συσχέτιση. Έτσι, συσχετίσεις µέσα σε µια µήτρα µπορεί να έχουν διαφορετικό αριθµό παρατηρήσεων που καθορίζουν κάθε συσχέτιση. Η εντολή Exclude cases listwise (=εξαιρέστε περιπτώσεις κατά λίστα) σηµαίνει ότι αν µια παρατήρηση έχει οποιοδήποτε κενό στα δεδοµένα της όλα τα δεδοµένα αυτής θα εξαιρεθούν από το σύνολο των αναλύσεων. Τα κενά στα δεδοµένα είναι ένα ακανθώδες πρόβληµα στην ανάλυση δεδοµένων και θα πρέπει να αντιµετωπιστούν πριν µπείτε στο στάδιο των αναλύσεων.

ΑΠΟΤΕΛΕΣΜΑΤΑ

Συσχετίσεις

Ακολουθούν τα αποτελέσµατα της συσχέτισης των µεταβλητών sex, gpa, quiz1, quiz5 και final.

Page 78: Notes Spss

Correlations

1 -,194* -,128 -,006 -,140, ,048 ,195 ,952 ,156

105 105 105 105 105-,194* 1 ,246* ,262** ,498**,048 , ,011 ,007 ,000105 105 105 105 105

-,128 ,246* 1 ,504** ,535**,195 ,011 , ,000 ,000105 105 105 105 105

-,006 ,262** ,504** 1 ,472**,952 ,007 ,000 , ,000105 105 105 105 105

-,140 ,498** ,535** ,472** 1,156 ,000 ,000 ,000 ,105 105 105 105 105

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

SEX

GPA

QUIZ1

QUIZ5

FINAL

SEX GPA QUIZ1 QUIZ5 FINAL

Correlation is significant at the 0.05 level (2-tailed).*.

Correlation is significant at the 0.01 level (2-tailed).**.

Προσέξτε πρώτα απ’ όλα τη δοµή των αποτελεσµάτων. Η πρώτη γραµµή κάθε κελιού προσδιορίζει τις συσχετίσεις µεταξύ των µεταβλητών µε ακρίβεια τριών δεκαδικών ψηφίων. Η δεύτερη γραµµή δείχνει τη σηµαντικότητα κάθε αντίστοιχης συσχέτισης. Η τρίτη γραµµή καταγράφει τον αριθµό των παρατηρήσεων που εµπλέκονται σε κάθε συσχέτιση. Μόνον αν υπάρχουν κενά στα δεδοµένα είναι δυνατό ο αριθµός των παρατηρήσεων που εµπλέκονται σε µία συσχέτιση να διαφέρει από τον αντίστοιχο αριθµό άλλων συσχετίσεων. Οι σηµειώσεις κάτω από τον πίνακα ορίζουν τη σηµασία των αστερίσκων και δείχνουν αν τα επίπεδα σηµαντικότητα είναι one-tailed ή two-tailed.

Η διαγώνιος που σχηµατίζεται από «1» δείχνει απλώς ότι κάθε µεταβλητή είναι τέλεια συσχετισµένη µε τον εαυτό της. Από τη στιγµή που η διαδικασία υπολογισµού των συσχετίσεων είναι η ίδια ανεξάρτητα από το ποια µεταβλητή ορίζεται πρώτη, ο µισός πίνακας πάνω από τη διαγώνιο των «1» έχει τις ίδιες τιµές µε τον υπόλοιπο µισό κάτω από τη διαγώνιο. Προσέξτε την ισχυρή θετική συσχέτιση ανάµεσα στις µεταβλητές final και quiz5 (r = 0.475, p < 0.001). Όπως περιγράφηκε στην εισαγωγή αυτού του κεφαλαίου, οι τιµές αυτές υποδηλώνουν µια ισχυρή θετική σχέση ανάµεσα στο βαθµό του πέµπτου πρόχειρου διαγωνίσµατος και στο βαθµό της τελικής εξέτασης. Εκείνοι που πέτυχαν τους υψηλότερους βαθµούς στο πρόχειρο διαγώνισµα είχαν την τάση να επιτυγχάνουν υψηλότερο βαθµό και στην τελική εξέταση.

Page 79: Notes Spss

34

Η ∆ιαδικασία του

ΕLEΓXOY T (T TEST)

Τι είναι ο έλεγχος t;

Έλεγχοι t σε Ανεξάρτητα ∆είγµατα (independent-samples t test)

Έλεγχοι t σε Ζεύγη ∆ειγµάτων (paired-samples t test)

Έλεγχοι t σε ένα ∆είγµα (one-sample t test)

Έλεγχοι Σηµαντικότητας

Βήµα προς Βήµα

Αποτελέσµατα

ΑΣΚΗΣΕΙΣ

4 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 11 του βιβλίου των George και Mallery

Page 80: Notes Spss

Ο έλεγχος (t test) είναι µια διαδικασία που χρησιµοποιείται για τη σύγκριση δειγµατικών µέσων προκειµένου να δούµε αν υπάρχουν αρκετά στοιχεία για να συµπεράνουµε ότι οι µέσοι των αντίστοιχων πληθυσµιακών κατανοµών επίσης διαφέρουν. Πιο συγκεκριµένα, για να γίνει κάποιος έλεγχος t σε ανεξάρτητα δείγµατα, λαµβάνονται δείγµατα από δύο πληθυσµούς (ένα δείγµα απ’ τον κάθε πληθυσµό). Τα δύο δείγµατα µετρώνται µε βάση κάποια µεταβλητή που µας ενδιαφέρει. Ένας έλεγχος t θα καθορίσει αν οι µέσοι των κατανοµών των δύο δειγµάτων διαφέρουν σηµαντικά ο ένας από τον άλλο. Οι έλεγχοι t µπορούν να χρησιµοποιηθούν για να διερευνηθούν θέµατα όπως: Έχει η θεραπεία Α µεγαλύτερα ποσοστά ανάρρωσης από τη θεραπεία Β; Έχει µια συγκεκριµένη διαφηµιστική τεχνική καλύτερα αποτελέσµατα στις πωλήσεις από µια άλλη; Οι γυναίκες ή οι άνδρες έχουν µεγαλύτερη βαθµολογία σε µια µέτρηση της τάσης για συναισθηµατική κατανόηση; Αποφέρει µια προπονητική µέθοδος καλύτερους χρόνους σε αγώνες ταχύτητας από µια άλλη; Η λέξη κλειδί είναι το δύο: Οι έλεγχοι t συγκρίνουν πάντα δύο διαφορετικούς µέσους ή τιµές.

Σ’ αυτό το κεφάλαιο που αφορά τους ελέγχους t, το εγχειρίδιο SPSS for Windows Base System User’s Guide αφιερώνει πολλές σελίδες µιλώντας για µηδενικές υποθέσεις, πληθυσµούς, τυχαία δείγµατα, κανονικές κατανοµές, και µια σειρά ερευνητικών ζητηµάτων. Όλα τα σχόλιά του είναι σχετικά και µεγάλης σηµασίας για τη διεξαγωγή σηµαντικής έρευνας. Όµως, η συζήτηση αυτών των θεµάτων ξεφεύγει απ’ το σκοπό των σηµειώσεων αυτών. Το θέµα αυτού του κεφαλαίου είναι οι έλεγχοι t: τι κάνουν, πώς αποκτάµε πρόσβαση σ’ αυτούς µέσα απ’ το SPSS, και πώς θα πρέπει να ερµηνεύουµε τα αποτελέσµατά τους.

ΕΛΕΓΧΟΙ Τ ΣΕ ΑΝΕΞΑΡΤΗΤΑ ∆ΕΙΓΜΑΤΑ

Το SPSS παρέχει τρεις διαφορετικούς τύπους ελέγχων t. Ο πρώτος τύπος, ο έλεγχος t σε ανεξάρτητα δείγµατα, συγκρίνει τους µέσους δύο διαφορετικών δειγµάτων. Τα δύο δείγµατα έχουν κάποια κοινή µεταβλητή που µας ενδιαφέρει, αλλά δεν υπάρχει επικάλυψη στη συµµετοχή σε κάποιο απ’ αυτά. Τέτοια παραδείγµατα είναι: η διαφορά ανάµεσα σε άνδρες και γυναίκες στη βαθµολογία ενός διαγωνίσµατος, η διαφορά απόδοσης στα push-ups Ευρωπαίων και Αµερικάνων ή η διαφορά στην αντιλαµβανόµενη ικανοποίηση από τη ζωή µεταξύ παντρεµένων και άγαµων. Προσέξτε και πάλι ότι δεν υπάρχει καµία επικάλυψη στις συµµετοχές µεταξύ των δύο οµάδων.

ΕΛΕΓΧΟΙ Τ ΣΕ ΖΕΥΓΗ ∆ΕΙΓΜΑΤΩΝ

Ο δεύτερος τύπος ελέγχου t, ο έλεγχος t σε ζεύγη δειγµάτων, βασίζεται συνήθως σε οµάδες ατόµων που έχουν εµπειρία και από τις δύο συνθήκες µιας µεταβλητής. Τέτοια παραδείγµατα είναι: οι βαθµοί των µαθητών στο πρώτο πρόχειρο διαγώνισµα και οι βαθµοί των ίδιων µαθητών στο δεύτερο πρόχειρο διαγώνισµα· ο βαθµός κατάθλιψης κάποιων αφού ακολούθησαν τη θεραπεία Α σε σύγκριση µε το βαθµό κατάθλιψης των ίδιων αφού ακολούθησαν τη θεραπεία Β· ένα σύνολο βαθµολογίας κάποιων µαθητών σε τεστ SAT σε σχέση µε τη βαθµολογία των ίδιων µαθητών στο τεστ GRΕ πολλά χρόνια αργότερα· τα ποσοστά µαθητών του δηµοτικού σε τεστ απόδοσης µετά την παρακολούθηση ενός χρόνου σε κάποιο σχολείο Α σε σχέση µε τα ποσοστά σε αντίστοιχο τεστ µετά την παρακολούθηση ενός χρόνο σε κάποιο σχολείο Β. Προσέξτε εδώ ότι η ίδια οµάδα έχει εµπειρία και από τα δύο επίπεδα της µεταβλητής.

Page 81: Notes Spss

ΕΛΕΓΧΟΙ Τ ΣΕ ΕΝΑ ∆ΕΙΓΜΑ

Ο τρίτος τύπος ελέγχου t είναι ο έλεγχος t σε ένα δείγµα. Είναι σχεδιασµένος να ελέγχει αν ο µέσος µιας κατανοµής διαφέρει σηµαντικά από κάποια παρούσα τιµή. Ένα παράδειγµα: Έχει ένα µάθηµα που προσφέρεται σε τελειόφοιτους σαν αποτέλεσµα βαθµό στο τεστ GRE µεγαλύτερο ή ίσο του 1200; ∆ιέφερε σηµαντικά η απόδοση µια συγκεκριµένης τάξης από το στόχο του καθηγητή που ήταν ένας µέσος όρος της τάξης του 82%; Κατά τη διάρκεια της προηγούµενης αγωνιστικής περιόδου, ο µέσος χρόνος της καλύτερης επίδοσης των αθλητών της χώρας ήταν 18 λεπτά. Ο προπονητής έθεσε ένα στόχο 17 λεπτών για την τρέχουσα αγωνιστική περίοδο. ∆ιέφεραν οι χρόνοι των αθλητών σηµαντικά από το στόχο των 17 λεπτών που έθεσε ο προπονητής; Σ’ αυτή τη διαδικασία ο µέσος του δείγµατος συγκρίνεται µε µία συγκεκριµένη τιµή.

ΕΛΕΓΧΟΙ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ

Όταν χρησιµοποιείτε τους ελέγχους t για να αποφασίσετε αν δύο κατανοµές διαφέρουν σηµαντικά µεταξύ τους, ο έλεγχος που µετράει την πιθανότητα που σχετίζεται µε τη διαφορά ανάµεσα στις δύο οµάδες µπορεί να είναι έλεγχος σηµαντικότητας one-tailed ή two-tailed. Ο έλεγχος two-tailed εξετάζει αν ο µέσος µιας κατανοµής διαφέρει σηµαντικά από το µέσο της άλλης κατανοµής ή όχι, ανεξάρτητα από την κατεύθυνση (θετική ή αρνητική) της διαφοράς. Ο έλεγχος one-tailed µετράει µόνον αν η δεύτερη κατανοµή διαφέρει προς µια συγκεκριµένη κατεύθυνση από την πρώτη. Για παράδειγµα, σε ένα ινστιτούτο αδυνατίσµατος, ενδιαφέρον υπάρχει µόνον όσον αφορά το µέγεθος της απώλειας βάρους. Οποιαδήποτε ποσότητα βάρους προστίθεται θεωρείται αποτυχία. Παροµοίως, για µια διαφηµιστική καµπάνια το ενδιαφέρον εστιάζεται στην αύξηση των πωλήσεων.

Συνήθως το πλαίσιο της έρευνας θα αποσαφηνίσει ποιος τύπος ελέγχου είναι ο κατάλληλος. Η µόνη υπολογιστική διαφορά ανάµεσα στους δύο είναι ότι η τιµή p της µιας είναι δύο φορές όσο η τιµή p της άλλης. Αν το αποτέλεσµα του SPSS αποφέρει µια τιµή σηµαντικότητας two-tailed (αυτή είναι η προεπιλογή), απλώς διαιρέστε αυτό το νούµερο µε το 2 για να σας δώσει την πιθανότητα του ελέγχου one-tailed.

Για την παρουσίαση αυτών των εντολών χρησιµοποιούµε ακόµα µια φορά το αρχείο grades.sav µε Ν = 105. Οι µεταβλητές που µας ενδιαφέρουν γι’ αυτό το κεφάλαιο είναι: φύλο (sex), total (σύνολο βαθµών στην τάξη), year (πρώτο, δεύτερο, τρίτο, ή τέταρτο έτος στο κολέγιο), τα πρόχειρα διαγωνίσµατα απ’ το quiz1 ως το quiz5, και percent (το τελικό ποσοστό της τάξης).

ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

Υπολογισµός Ελέγχων t

ΕΛΕΓΧΟΣ T ΣΕ ΑΝΕΞΑΡΤΗΤΑ ∆ΕΙΓΜΑΤΑ

Από το µενού Analyze επιλέξτε την εντολή Compare Means και στη συνέχεια την υποεντολή Independent-Samples T Test. Σ’ αυτό το σηµείο ανοίγει ένα νέο παράθυρο (Οθόνη 3.1, παρακάτω) που σας επιτρέπει να κάνετε ελέγχους σε ανεξάρτητα δείγµατα. Προσέξτε τη δοµή της οθόνης. Στα αριστερά υπάρχει η λίστα µε τις µεταβλητές· στα δεξιά υπάρχει ένα πλαίσιο για να δείχνει τις µεταβλητές ελέγχου (Test Variable(s)). Οι µεταβλητές ελέγχου είναι οι συνεχείς µεταβλητές (όπως το σύνολο των βαθµών, ο τελικός βαθµός, ή άλλες), για τις οποίες θέλουµε να κάνουµε

Page 82: Notes Spss

συγκρίσεις µεταξύ δύο ανεξάρτητων οµάδων. Σ’ αυτό το πλαίσιο µπορούν να τοποθετηθούν µία ή περισσότερες µεταβλητές. Παρακάτω υπάρχει το πλαίσιο Grouping Variable (=Μεταβλητή Οµαδοποίησης) όπου δηλώνεται η µοναδική µεταβλητή που καθορίζει τις δύο οµάδες. Αυτή η µεταβλητή είναι συνήθως διχοτοµική που σηµαίνει ότι υπάρχουν ακριβώς δύο επίπεδα (όπως το φύλο ή ο βαθµός που προάγει ή δεν προάγει). Είναι δυνατόν πάντως να χρησιµοποιήσετε µια µεταβλητή µε περισσότερα από ένα επίπεδα (όπως η εθνικότητα –5 επίπεδα, ή ο βαθµός –5 επίπεδα) ορίζοντας πώς ακριβώς θέλετε να χωρίσετε τη µεταβλητή σε δύο ακριβώς οµάδες. Για παράδειγµα, για τον βαθµό µπορείτε να συγκρίνετε τα Α και τα Β (σαν µια οµάδα) µε τα C, τα D, και τα F (σαν άλλη οµάδα). Ακόµα και µια συνεχής µεταβλητή θα µπορούσε να συµπεριληφθεί εδώ αν ορίσετε τον αριθµό ο οποίος θα χωρίζει τις παρατηρήσεις σε δύο οµάδες.

Οθόνη 3.1

Το Παράθυρο Independent-Samples T Test

Μόλις ορίσετε τη µεταβλητή οµαδοποίησης, κάνετε κλικ στο πλήκτρο Define Groups (=ορισµός οµάδων). Ακόµη και για µια µεταβλητή που έχει ακριβώς δύο επίπεδα είναι απαραίτητο να ορίσετε τα δύο επίπεδα της µεταβλητής οµαδοποίησης. Σ’ αυτό το σηµείο ανοίγει ένα νέο παράθυρο (Οθόνη 3.2, παρακάτω) που δίπλα στο Group 1 (=Οµάδα 1) σας επιτρέπει να ορίσετε τον µοναδικό αριθµό που ορίζει το πρώτο επίπεδο της µεταβλητής (π.χ. γυναίκα =10), και στη συνέχεια, δίπλα στο Group 2 (=Οµάδα 2), το δεύτερο επίπεδο της µεταβλητής (π.χ. άνδρας=2). Η επιλογή Cut point (=σηµείο διαχωρισµού) σας επιτρέπει να επιλέξετε ένα µοναδικό σηµείο διαχωρισµού για µια µεταβλητή που έχει περισσότερα από δύο επίπεδα.

Οθόνη 3.2

Το Παράθυρο Define Groups

Η µεταβλητή year έχει τέσσερα επίπεδα και η χρήση της επιλογής Cut point είναι απαραίτητη για να διαχωρίσει τη µεταβλητή σε δύο ακριβώς οµάδες. Ο αριθµός που επιλέγεται (3 σ’ αυτή την περίπτωση) διαχωρίζει την οµάδα στην υποοµάδα που λαµβάνει τιµές µεγαλύτερες ή ίσες µε την τιµή διαχωρισµού(3 και 4) και την υποοµάδα που λαµβάνει τιµές µικρότερες από την τιµή διαχωρισµού (1 και 2).

Page 83: Notes Spss

ΕΛΕΓΧΟΣ t ΣΕ ΖΕΥΓH ∆ΕΙΓΜΑΤΩΝ

Από το µενού Analyze επιλέξτε την εντολή Compare Means και στη συνέχεια την υποεντολή Paired-Samples T Test.

Η διαδικασία για τους ελέγχους t σε ζεύγη δειγµάτων είναι στην πραγµατικότητα απλούστερη από αυτήν για τα ανεξάρτητα δείγµατα. Εµπλέκεται ένα µόνον παράθυρο και δεν χρειάζεται να ορίσετε επίπεδα µιας συγκεκριµένης µεταβλητής. Μόλις κάνετε κλικ στην επιλογή Paired-Samples T Test εµφανίζεται µια νέα οθόνη (Οθόνη 3.3, παρακάτω). Στα αριστερά υπάρχει τώρα η γνωστή µας λίστα µε τα ονόµατα των µεταβλητών και από τη στιγµή που θα συγκρίνετε όλες τις παρατηρήσεις για δύο διαφορετικές µεταβλητές (quiz1 και quiz2 στο πρώτο παράδειγµα) πρέπει να προσδιορίσετε και τις δύο αυτές µεταβλητές πριν κάνετε κλικ στο στη µέση της οθόνης. Μπορείτε να επιλέξετε όσα ζευγάρια µεταβλητών θέλετε για να τα επικολλήσετε στο πλαίσιο Paired Variables πριν κάνετε την ανάλυση. ∆εν υπάρχουν πάντως αυτόµατες λειτουργίες ή επιλογές click & drag (κάνετε κλικ και σύρετε) αν θέλετε να κάνετε πολλές συγκρίσεις. Πρέπει να τις επικολλήσετε, ένα ζευγάρι τη φορά, στο πλαίσιο Paired Variables.

Οθόνη 3.3

Το παράθυρο Paired-Samples T Test

Αν θέλετε να κάνετε υπολογισµούς για αρκετούς ελέγχους t στο ίδιο πλαίσιο, θα επικολλήσετε όλα τα επιθυµητά ζεύγη µεταβλητών στο πλαίσιο Paired Variables. Στα βήµατα που ακολουθούν, οι βαθµοί στο quiz1 συγκρίνονται µε τους βαθµούς καθενός από τα άλλα 4 πρόχειρα διαγωνίσµατα (quiz1 έως quiz5).

ΕΛΕΓΧΟΣ t ΣΕ ΕΝΑ ∆ΕΙΓΜΑ

Από το µενού Analyze επιλέξτε την εντολή Compare Means και στη συνέχεια την υποεντολή One-Sample T Test.

Συχνά θέλουµε να συγκρίνουµε το µέσο µιας κατανοµής µε κάποια αντικειµενική σταθερά. Με το αρχείο grades.sav, ο εισηγητής µπορεί να έχει διδάξει σε µια τάξη πολλές φορές και να έχει καθορίσει ποιος πιστεύει ότι είναι ένας αποδεκτός µέσος όρος για µια επιτυχηµένη τάξη. Αν η επιθυµητή τιµή για το τελικό ποσοστό

Page 84: Notes Spss

(percent) είναι 85, µπορεί να θέλει να συγκρίνει το ποσοστό της τάξης µε τη σταθερά. ∆ιαφέρει σηµαντικά η πραγµατικότητα από αυτό που εκείνος θεωρεί αποδεκτή απόδοση της τάξης;

Οθόνη 3.4

Το Παράθυρο One-Sample T Test

Μόλις κάνετε κλικ στην επιλογή One-Sample T Test, εµφανίζεται η οθόνη που επιτρέπει τη διεξαγωγή ελέγχων σε ένα δείγµα (Οθόνη 3.4, παραπάνω). Η πολύ απλή αυτή διαδικασία απαιτεί να επικολλήσετε µεταβλητές από τη λίστα των µεταβλητών στα αριστερά στο πλαίσιο Test Variable(s), να πληκτρολογήσετε την επιθυµητή τιµή στο πλαίσιο δίπλα στην ετικέτα Test Value και στη συνέχεια να κάνετε κλικ στο ΟΚ. Η διαδικασία αυτή θα συγκρίνει κάθε επιλεγµένη µεταβλητή µε την προκαθορισµένη τιµή. Σιγουρευτείτε εποµένως, αν επιλέξετε πολλές µεταβλητές, ότι θέλετε να τις συγκρίνετε όλες µε τον ίδιο αριθµό. ∆ιαφορετικά, κάντε περισσότερες αναλύσεις.

ΑΠΟΤΕΛΕΣΜΑΤΑ

Έλεγχος t σε Ανεξάρτητα ∆είγµατα, σε Ζεύγη ∆ειγµάτων και σε Ένα ∆είγµα

Σ’ αυτή την ενότητα παρουσιάζουµε τους τρεις τύπους ελέγχων t ξεχωριστά, τον καθένα κάτω απ’ το δικό του τίτλο. Μια µικρή περιγραφή των ευρηµάτων ακολουθεί κάθε ενότητα των αποτελεσµάτων· οι ορισµοί των όρων (και για τις τρεις ενότητες) κλείνουν το κεφάλαιο. Η µορφή των αποτελεσµάτων είναι ελαφρώς διαφορετική (τέτοια που να εξοικονοµεί χώρο) από αυτή που παρουσιάζει το SPSS.

ΕΛΕΓΧΟΙ T ΣΕ ΑΝΕΞΑΡΤΗΤΑ ∆ΕΙΓΜΑΤΑ:

Ακολουθούν τα αποτελέσµατα από τον έλεγχο για το αν υπάρχει διαφορά στο συνολικό βαθµό (total) µεταξύ ανδρών και γυναικών.

Group Statistics

64 102,03 13,896 1,73741 98,29 17,196 2,686

SEXFemaleMale

TOTALN Mean Std. Deviation

Std. ErrorMean

Page 85: Notes Spss

Independent Samples Test

2,019 ,158 1,224 103 ,224 3,74 3,053 -2,317 9,7941,169 72,421 ,246 3,74 3,198 -2,637 10,114

EqualUnequal

F Sig.

Levene's Test forEquality ofVariances

t df

Sig.(2-taile

d)Mean

Difference

Std. ErrorDifferenc

e Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Αυτή η ανάλυση ελέγχου t σε ανεξάρτητα δείγµατα δείχνει ότι οι 64 γυναίκες έχουν µέσο όρο βαθµολογίας στην τάξη 102,03, οι 41 άνδρες έχουν µέσο όρο βαθµολογίας στην τάξη 98,29 και οι µέσοι δεν διαφέρουν σηµαντικά σε επίπεδο p < 0,05 (p = 0,224). Ο έλεγχος Levene για την Ισότητα των ∆ιακυµάνσεων (Levene’s test for Equality of Variances) δείχνει ότι οι διακυµάνσεις για τους άνδρες και οι διακυµάνσεις για τις γυναίκες δεν διαφέρουν σηµαντικά µεταξύ τους (p = 0,158). Αυτό το αποτέλεσµα σας επιτρέπει να χρησιµοποιήσετε πιο ισχυρό έλεγχο t ίσων διακυµάνσεων (equal-variance t test). Αν ο έλεγχος Levene δεν δείξει σηµαντικές διαφορές, τότε πρέπει να χρησιµοποιήσετε έλεγχο άνισων διακυµάνσεων (unequal-variance t test). Οι ορισµοί για τους υπόλοιπους όρους βρίσκονται σε επόµενη ενότητα αυτού του κεφαλαίου.

ΕΛΕΓΧΟΙ t ΣΕ ΖΕΥΓΗ ∆ΕΙΓΜΑΤΩΝ

Ακολουθούν τα αποτελέσµατα από τη σύγκριση των κατανοµών των µεταβλητών quiz1 και quiz2.

Paired Samples Statistics

7,47 105 2,481 ,2427,98 105 1,623 ,158

QUIZ1QUIZ2

Pair1

Mean N Std. DeviationStd. Error

Mean

Paired Samples Correlations

105 ,673 ,000QUIZ1 & QUIZ2Pair 1N Correlation Sig.

Paired Samples Test

-,51 1,835 ,179 -,87 -,16 -2,872 104 ,005QUIZ1 - QUIZ2Mean

Std.Deviation

Std.ErrorMean Lower Upper

95% ConfidenceInterval of the

Difference

Paired Differences

t dfSig.

(2-tailed)

Page 86: Notes Spss

Η ανάλυση του ελέγχου t σε ζεύγη δειγµάτων δείχνει ότι για τους 105 φοιτητές, ο µέσος βαθµός στο δεύτερο πρόχειρο διαγώνισµα (Μ = 7,98) είναι σηµαντικά µεγαλύτερος σε επίπεδο p < 0,01 (σηµείωση: p =0,005) από το µέσο βαθµό στο πρώτο διαγώνισµα (Μ = 7,47). Αυτά τα αποτελέσµατα δείχνουν επίσης ότι υπάρχει σηµαντική συσχέτιση ανάµεσα σ’ αυτές τις δύο µεταβλητές (r = 0,673, p < 0,001) υποδηλώνοντας ότι αυτοί που έχουν υψηλό βαθµό σε κάποιο από τα πρόχειρα διαγωνίσµατα τείνουν να έχουν υψηλό βαθµό και στο άλλο. Οι ορισµοί των πρόσθετων όρων παρατίθενται στο τέλος του κεφαλαίου.

ΕΛΕΓΧΟΙ t ΣΕ ΕΝΑ ∆ΕΙΓΜΑ

Ακολουθούν τα αποτελέσµατα από τη τον έλεγχο για το αν υπάρχει σηµαντική διαφορά µεταξύ των τιµών της µεταβλητής percent και της τιµής 85.

One-Sample Statistics

105 80,34 12,135 1,184PERCENTN Mean Std. Deviation

Std. ErrorMean

One-Sample Test

-3,932 104 ,000 -4,66 -7,01 -2,31PERCENTt df Sig. (2-tailed)

MeanDifference Lower Upper

95% ConfidenceInterval of the

Difference

Test Value = 85

Αυτή η ανάλυση ελέγχου t σε ένα δείγµα δείχνει ότι το µέσο ποσοστό για την τάξη των 105 µαθητών (Μ =80,38) ήταν σηµαντικά χαµηλότερο σε επίπεδο p < 0,001 από το στόχο του εισηγητή (τιµή ελέγχου [=test value]), το 85%. Η Μέση ∆ιαφορά (Mean Difference) είναι απλώς ο πραγµατικός µέσος (80,83) µείον την τιµή ελέγχου (85,0).

ΟΡΙΣΜΟΙ ΟΡΩΝ

Όρος Ορισµός/ Περιγραφή STD ERROR (=ΤΥΠΙΚΟ ΣΦΑΛΜΑ)

Η τυπική απόκλιση διαιρεµένη µε την τετραγωνική ρίζα του Ν. Αυτό είναι ένα µέτρο σταθερότητας ή δειγµατοληπτικού σφάλµατος των µέσων του δείγµατος.

Page 87: Notes Spss

F-VALUE (ΤΙΜΗ F) Αυτή η τιµή χρησιµοποιείται για να καθορίσει αν οι

διακυµάνσεις των δύο κατανοµών διαφέρουν σηµαντικά µεταξύ τους. Ονοµάζεται έλεγχος ετεροσκεδαστικότητας, µια εκπληκτική λέξη για να εντυπωσιάσετε τους φίλους σας!

P= (για το Levene’s test)

Αν οι διακυµάνσεις δεν διαφέρουν σηµαντικά, τότε η εκτίµηση ίσων διακυµάνσεων µπορεί να χρησιµοποιηθεί αντί της εκτίµησης άνισων διακυµάνσεων. Η τιµή p, εδώ το 0.158, δείχνει ότι οι δύο διακυµάνσεις δεν διαφέρουν σηµαντικά· έτσι µπορεί να χρησιµοποιηθεί η ισχυρότερη στατιστικά εκτίµηση ίσων διακυµάνσεων.

t-VALUES (TIMEΣ t) Βασίζεται είτε στην εξίσωση της εκτίµησης ίσων διακυµάνσεων είτε στην εξίσωση εκτίµησης άνισων διακυµάνσεων. Θεωρητικά και οι δύο τύποι συγκρίνουν τις διακυµάνσεις του µέσου εντός της οµάδας µε τις διακυµάνσεις του µέσου µεταξύ των οµάδων. Η ελαφρώς υψηλότερη (σε απόλυτες τιµές) εκτίµηση ίσων διακυµάνσεων µπορεί να χρησιµοποιηθεί εδώ γιατί οι διακυµάνσεις δεν διαφέρουν σηµαντικά. Η πραγµατική τιµή t είναι η διαφορά των µέσων προς το τυπικό σφάλµα.

df (βαθµοί ελευθερίας)

Για την εκτίµηση ίσων διακυµάνσεων, ο αριθµός των παρατηρήσεων µείον τον αριθµό των οµάδων (105 – 2 = 103). Οι κλασµατικοί βαθµοί ελευθερίας (72.42) για την εκτίµηση άνισης διακύµανσης είναι µια τιµή που προκύπτει από συγκεκριµένο τύπο. Για τους ελέγχους σε ζεύγη δειγµάτων και σε ένα δείγµα, η τιµή είναι ο αριθµός των παρατηρήσεων µείον 1 (105 – 1 = 104).

2-TAIL SIG (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ ∆ΙΠΛΗΣ ΚΑΤΕΥΘΥΝΣΗΣ)

(σχετίζεται µε τις τιµές t) Η πιθανότητα ότι η διαφορά των µέσων µπορεί να προέκυψε τυχαία.

MEAN DIFFERENCE (ΜΕΣΗ ∆ΙΑΦΟΡΑ)

Η διαφορά µεταξύ δύο µέσων.

STD. DEVIATION (=ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ)

Αυτή είναι η τυπική απόκλιση της διαφοράς και χρησιµοποιείται για να υπολογιστεί η τιµή t για τον έλεγχο t σε ζεύγη. Για κάθε παρατήρηση σ’ ένα έλεγχο t σε ζεύγη, υπάρχει µια διαφορά ανάµεσα στις τιµές δύο διαγωνισµάτων (φυσικά µερικές φορές και 0). Αυτό το συγκεκριµένο στατιστικό µέτρο είναι η τυπική απόκλιση της κατανοµής µε τους βαθµούς των διαφορών µεταξύ των µέσων.

CORRELATION (=ΣΥΣΧΕΤΙΣΗ)

Μετρά την έκταση στην οποία µια µεταβλητή διαφοροποιείται συστηµατικά από κάποια άλλη. Το στατιστικό µέγεθος που παρουσιάζεται εδώ είναι η συσχέτιση Pearson που αντιπροσωπεύεται από ένα r.

2-TAIL SIG (of the correlation) (ΣΗΜΑΝΤΙΚΟΤΗΤΑ ∆ΙΠΛΗΣ ΚΑΤΕΥΘΥΝΣΗΣ [της συσχέτισης])

Η πιθανότητα ότι ένα τέτοιο αποτέλεσµα οφείλεται σε τυχαίους παράγοντες. Στους ελέγχους σε ζεύγη δειγµάτων, ένα r = 0.67 και p < 0.001 δείχνει µια ουσιώδη και σηµαντική συσχέτιση ανάµεσα στις µεταβλητές quiz1 και quiz2.

95% CI (CONFIDENCE INTERVAL) (=95%

Στους ελέγχους t το επίπεδο εµπιστοσύνης αφορά την τιµή της διαφοράς µεταξύ των µέσων. Αν είχε ληφθεί µεγαλύτερος αριθµός δειγµάτων από τον πληθυσµό, το 95% των διαφορών

Page 88: Notes Spss

ΕΠΙΠΕ∆Ο ΕΜΠΙΣΤΟΣΥΝΗΣ)

µεταξύ των µέσων θα ανήκαν στο διάστηµα µεταξύ της ανώτερης και κατώτερης τιµής που υποδεικνύονται.

Page 89: Notes Spss

45

Μονόδροµη Ανάλυση ∆ιακύµανσης (One-Way ANOVA)

Εισαγωγή στη Μονόδροµη Ανάλυση ∆ιακύµανσης

Βήµα προς Βήµα

Πολλαπλές Post Hoc Συγκρίσεις

Αντιπαραβολές: Σχεδιασµένες Συγκρίσεις

Αποτελέσµατα

ΑΣΚΗΣΕΙΣ

5 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 12 του βιβλίου των George και Mallery

Page 90: Notes Spss

Η µονόδροµη ανάλυση διακύµανσης εκτελείται µέσω της εντολής One-Way ANOVA του SPSS. Ενώ η ανάλυση αυτή θα µπορούσε να επιτευχθεί και χρησιµοποιώντας την εντολή General Linear Models, στην εντολή One-Way ANOVA υπάρχουν συγκεκριµένες επιλογές που δεν είναι διαθέσιµες αλλού, συµπεριλαµβανοµένων των µετέπειτα ελέγχων, όπως οι Tukey και Scheffé, και των σχεδιασµένων συγκρίσεων διαφορετικών οµάδων ή συνθέσεων οµάδων.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΜΟΝΟ∆ΡΟΜΗ ΑΝΑΛΥΣΗ ∆ΙΑΚΥΜΑΝΣΗΣ

Η ανάλυση διακύµανσης είναι µια διαδικασία που χρησιµοποιείται για να συγκρίνουµε µέσους δειγµάτων και να δούµε αν υπάρχουν επαρκή στοιχεία για να συµπεράνουµε ότι οι µέσοι των αντίστοιχων πληθυσµιακών κατανοµών επίσης διαφέρουν. Η µονόδροµη ανάλυση διακύµανσης εξηγείται ευκολότερα αν τη συγκρίνουµε µε τους ελέγχους t (Κεφάλαιο 3). Ενώ οι έλεγχοι t συγκρίνουν µόνο δύο κατανοµές, η ανάλυση διακύµανσης µπορεί να συγκρίνει πολλές. Αν, για παράδειγµα, ένα δείγµα φοιτητών συµµετέχει σε ένα διαγώνισµα µε άριστα το 10 και θέλουµε να δούµε αν οι άνδρες ή οι γυναίκες πέτυχαν µεγαλύτερο σκορ, θα ήταν κατάλληλος ο έλεγχος t. Υπάρχει η κατανοµή των σκορ που πέτυχαν οι γυναίκες και η κατανοµή των σκορ που πέτυχαν οι άνδρες κι ο έλεγχος t θα µας έλεγε αν οι µέσοι των δύο αυτών κατανοµών διαφέρουν σηµαντικά µεταξύ τους. Αν όµως θέλετε να δείτε κατά πόσο τα σκορ των πέντε διαφορετικής εθνικότητας οµάδων διαφέρουν σηµαντικά µεταξύ τους για το ίδιο διαγώνισµα, θα έπρεπε να κάνετε µονόδροµη ανάλυση παλινδρόµησης. Αν τρέχαµε έναν τέτοιο έλεγχο, η µονόδροµη ανάλυση παλινδρόµησης θα µπορούσε να µας πει αν υπάρχουν σηµαντικές διαφορές σε κάποια από τις συγκρίσεις µεταξύ των πέντε οµάδων του δείγµατός µας. Περαιτέρω έλεγχοι (όπως ο έλεγχος Scheffé, ο οποίος θα περιγραφεί σ’ αυτό το κεφάλαιο) είναι απαραίτητοι για να καθορίσουµε µεταξύ ποιών οµάδων υπάρχουν οι σηµαντικές διαφορές.

Η προηγούµενη παράγραφος περιγράφει µε συντοµία την ανάλυση διακύµανσης. Τι σηµαίνει το «µονόδροµη»; Χρησιµοποιώντας την εντολή One-Way ANOVA, µπορείτε να έχετε ακριβώς µία εξαρτηµένη µεταβλητή (συνεχή πάντα) και ακριβώς µία ανεξάρτητη µεταβλητή (µη συνεχή πάντα). Η ανεξάρτητη µεταβλητή που παρουσιάζεται παραπάνω (εθνικότητα) είναι µία µεταβλητή αλλά έχει πολλά επίπεδα. Στο παράδειγµά µας έχει πέντε: Ιθαγενής, Ασιάτης, Μαύρος, Λευκός, και Ισπανόφωνος. Τα Μοντέλα Ανάλυσης ∆ιακύµανσης (ANOVA Models) µπορούν να έχουν επίσης το πολύ µία εξαρτηµένη µεταβλητή αλλά µπορούν να έχουν δύο ή περισσότερες ανεξάρτητες µεταβλητές. Στην MANOVA, την πολυµεταβλητή ανάλυση διακύµανσης, στην οποία δεν θα αναφερθούµε, µπορούν να υπάρχουν πολλές εξαρτηµένες και πολλές ανεξάρτητες µεταβλητές.

Η επεξήγηση που ακολουθεί δίνει µια θεωρητική αίσθηση για το τι προσπαθεί να πετύχει η µονόδροµη ανάλυση διακύµανσης. Τα µέσα σκορ του διαγωνίσµατος για κάθε µία από τις εθνικότητες συγκρίνονται µεταξύ τους: Ιθαγενείς µε Ασιάτες, Ιθαγενείς µε Μαύρους, Ιθαγενείς µε Λευκούς, Ιθαγενείς µε Ισπανόφωνους, Ασιάτες µε Μαύρους, Ασιάτες µε Λευκούς, Ασιάτες µε Ισπανόφωνους, Μαύροι µε Λευκούς, Μαύροι µε Ισπανόφωνους και Λευκοί µε Ισπανόφωνους. Η Μονόδροµη ανάλυση διακύµανσης θα δώσει κάποια τιµή σηµαντικότητας που θα δηλώνει αν υπάρχουν σηµαντικές διαφορές στις συγκρίσεις που έγιναν. Αυτή η τιµή σηµαντικότητας δεν προσδιορίζει πού βρίσκεται η διαφορά ή ποιες είναι οι διαφορές, αλλά ο έλεγχος Scheffé µπορεί να εντοπίσει ποιες οµάδες διαφέρουν σηµαντικά µεταξύ τους. Να γνωρίζετε ότι υπάρχουν κι άλλοι έλεγχοι εκτός από τον Scheffé που µπορούν να

Page 91: Notes Spss

εντοπίσουν διαφορές µέσα σε ζεύγη· ο Tukey (HSD), ο LSD, και ο Bonferroni είναι επίσης δηµοφιλείς έλεγχοι διµεταβλητών συγκρίσεων.

Το αρχείο που χρησιµοποιούµε για να παρουσιάζουµε την Μονόδροµη ανάλυση διακύµανσης είναι αυτό του γνωστού µας παραδείγµατος. Το αρχείο ονοµάζεται grades.sav κι έχει αριθµό παρατηρήσεων Ν = 105. Με την ανάλυση αυτή, αντιπαραβάλλουµε τους βαθµούς στο quiz4 (η εξαρτηµένη µεταβλητή) µε τα πέντε επίπεδα της εθνικότητας, ethnic (η ανεξάρτητη µεταβλητή) –Ιθαγενής, Ασιάτης, Μαύρος, Λευκός, και Ισπανόφωνος. ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ Μονόδροµη Ανάλυση ∆ιακύµανσης Από το µενού Analyze επιλέγετε την εντολή Compare Means και στη συνέχεια την υποεντολή One-Way ANOVA. Η αρχική οθόνη που εµφανίζεται αφού κάνετε κλικ στην εντολή One-Way ANOVA δίνει µια σαφή ιδέα για τη δοµή της εντολής (Οθόνη 4.1). Πολλές φορές στη διεξαγωγή της ανάλυσης διακύµανσης θα χρησιµοποιηθούν και οι τρεις επιλογές (Options, Post Hoc, και Contrasts). Προσέξτε πρώτα τη γνωστή λίστα µε τις µεταβλητές στα αριστερά. Στη συνέχεια προσέξτε το µεγάλο πλαίσιο προς το επάνω µέρος της οθόνης (µε τίτλο Dependent List [=Λίστα Εξαρτηµένων]). Σ’ αυτό το πλαίσιο θα τοποθετηθεί µία µοναδική συνεχής µεταβλητή (η quiz4 σ’ αυτό το παράδειγµα), ή πολλές συνεχείς µεταβλητές. Το SPSS θα εκτυπώσει ξεχωριστά αποτελέσµατα της ανάλυσης διακύµανσης για κάθε εξαρτηµένη µεταβλητή που συµπεριλήφθηκε. Παρακάτω βρίσκεται το πλαίσιο Factor (=παράγοντας). Εδώ θα τοποθετηθεί µία µοναδική ποιοτική µεταβλητή (η ethnic στο παράδειγµά µας). Αυτή η ανάλυση θα συγκρίνει τα σκορ των διαγωνισµάτων για κάθε µία από τις εθνότητες. Υπάρχουν φυσικά πέντε εθνικότητες κάτω από τη µεταβλητή ethnic, αλλά επειδή υπάρχουν µόνον 5 παρατηρήσεις στην κατηγορία Ιθαγενής, θα συµπεριλάβουµε µόνον τις υπόλοιπες τέσσερις.

Οθόνη 4.1

Το Παράθυρο One-Way ANOVA

Παρότι η προηγούµενη ανάλυση θα σας πει αν υπάρχει σηµαντική διαφορά στις συγκρίσεις που έγιναν, δεν σας λέει πολλά παραπάνω. ∆εν ξέρετε τις τιµές του µέσου για κάθε οµάδα, δεν έχετε καµία πληροφορία για την ψυχοµετρική εγκυρότητα των µεταβλητών σας, και δεν είναι δυνατόν να πείτε ποιες οµάδες διαφέρουν από ποιες. Η πρώτη παράλειψη επιλύεται αν κάνετε κλικ στο πλήκτρο Options. Η Οθόνη 4.2 ανοίγει και σας δίνει δύο σηµαντικές δυνατότητες. Την επιλογή Descriptives

Page 92: Notes Spss

(=περιγραφικά) που δίνει για κάθε επίπεδο το µέσο, την τυπική απόκλιση, τα τυπικά σφάλµατα, τα όρια εµπιστοσύνης στο 95%, το ελάχιστο και το µέγιστο. Την επιλογή Homogeneity-of-variance (=οµογένεια της διακύµανσης) που επίσης δίνει σηµαντικές ψυχοµετρικές πληροφορίες για την καταλληλότητα των µεταβλητών που θέλετε να συµµετέχουν στην ανάλυση. Η εντολή Means plot (=γράφηµα µέσων), αν επιλεγεί, θα παράγει ένα γραµµογράφηµα που θα απεικονίζει το µέσο για κάθε κατηγορία (κάθε εθνικότητα σ’ αυτή την περίπτωση) γραφικά.

Οθόνη 4.2

Το Παράθυρο One-Way ANOVA: Options

Ένα δεύτερο σηµαντικό θέµα εξετάζει τις pairwise συγκρίσεις—δηλαδή συγκρίσεις κάθε πιθανού ζεύγους µη συνεχών µεταβλητών. Για παράδειγµα στις συγκρίσεις µας για την εθνικότητα, ενδιαφερόµαστε για το αν µια οµάδα έχει σηµαντικά υψηλότερο σκορ από κάποια άλλη. Το σκορ των Λευκών σε σχέση µε το σκορ των Ασιατών, των Μαύρων σε σχέση µε των Ισπανόφωνων, και ούτω καθ’ εξής. Ο τίτλος του παραθύρου (Οθόνη 4.3, παρακάτω) είναι Post Hoc Multiple Comparisons (=Πολλαπλές Post Hoc Συγκρίσεις). «Post Hoc» σηµαίνει µετά το γεγονός. «Πολλαπλές Συγκρίσεις» σηµαίνει ότι στις συγκρίσεις περιλαµβάνονται όλα τα πιθανά ζευγάρια παραγόντων. Υπάρχουν 14 επιλογές αν υποτεθούν ίσες διακυµάνσεις για τα επίπεδα µιας µεταβλητής και άλλες 4 αν δεν υποτεθούν ίσες διακυµάνσεις. Ο αριθµός των επιλογών για έλεγχο προκαλεί κάτι παραπάνω από ζάλη. Η εντολή LSD (=ελάχιστα σηµαντική διαφορά) αφορά τον πιο χαλαρό από τους ελέγχους (αυτό σηµαίνει ότι έχετε τις περισσότερες πιθανότητες να βρείτε σηµαντικές διαφορές στις συγκρίσεις) επειδή πρόκειται απλώς για µια σειρά από ελέγχους t. Οι Scheffé και Bonferroni είναι πιθανώς οι πιο συντηρητικοί της οµάδας. O Tukey (HBS—γνήσια σηµαντική διαφορά) είναι µια ακόµη δηµοφιλής επιλογή.

Page 93: Notes Spss

Οθόνη 4.3

Το Παράθυρο One-Way ANOVA: Post Hoc Multiple Comparisons

Η τελική επιλογή στην αρχική οθόνη αφορά τις Αντιπαραβολές (Contrasts). Μόλις κάνετε κλικ σ’ αυτό το πλήκτρο, εµφανίζεται η Οθόνη 4.4 (παρακάτω). Αυτή η διαδικασία σας επιτρέπει να συγκρίνετε ένα επίπεδο µιας µη συνεχούς µεταβλητής µε µια σύνθεση των άλλων (π.χ. Λευκοί µε µη Λευκούς) ή µια σύνθεση µε µια άλλη σύνθεση (π.χ. µια οµάδα από Λευκούς και Ισπανόφωνους µε µια οµάδα από Μαύρους και Ασιάτες). Μόλις διαµορφωθούν οι οµάδες, η εντολή Contrasts υπολογίζει έναν έλεγχο t ανάµεσα στις δυο οµάδες. Σ’ αυτή τη διαδικασία τα επίπεδα µιας µεταβλητής κωδικοποιούνται µε βάση την ετικέτα (label) της τιµής τους. Η παρούσα κωδικοποίηση είναι Ασιάτες = 2, µαύροι = 3, Λευκοί = 4, και Ισπανόφωνοι = 5. Στα πλαίσια των συντελεστών (coefficients) πρέπει να καταχωρίσετε αριθµούς που αντιπαραβάλλουν τους θετικούς αριθµούς µιας οµάδας µε τους αρνητικούς αριθµούς µιας άλλη. Είναι απαραίτητο οι συντελεστές αυτοί να έχουν πάντα άθροισµα µηδέν. Για παράδειγµα, µια σύγκριση Ισπανόφωνων-Ασιατών θα µπορούσε να κωδικοποιηθεί ως (-1 0 0 1)· Μια αντιπαραβολή Λευκών–Μη Λευκών (1 1 -3 1)· και τα επίπεδα 2 και 3 σε αντιπαραβολή µε τις οµάδες 4 και 5 (-1 -1 1 1 ). Προσέξτε ότι κάθε µία απ’ αυτές τις σειρές έχει άθροισµα µηδέν. Η σύγκριση που παρουσιάζεται στην παρακάτω οθόνη αντιπαραβάλει τους Ισπανόφωνους (την 5η οµάδα) µε τους µη Ισπανόφωνους (οµάδες 1, 2, 3, και 4).

Page 94: Notes Spss

Οθόνη 4.4

Το Παράθυρο One-Way ANOVA: Contrasts

Η διαδικασία απαιτεί να πληκτρολογήσετε στο πλαίσιο των Coefficients (=συντελεστές) τον αριθµό που αντιπροσωπεύει το πρώτο επίπεδο της ποιοτικής µεταβλητής, να κάνετε κλικ στο Add (=προσθήκη), στη συνέχεια να πληκτρολογήσετε τον αριθµό που αντιπροσωπεύει το δεύτερο επίπεδο της µεταβλητής και να κάνετε κλικ στο πλήκτρο Add και ούτω καθ’ εξής µέχρι να έχουν οριστεί όλα τα επίπεδα της µεταβλητής. Στη συνέχεια, αν θέλετε άλλη µια αντιπαραβολή, κάντε κλικ στο πλήκτρο Next στα δεξιά του Contrast 1 of 1 (=Αντιπαραβολή 1 από 1) και επαναλάβετε τη διαδικασία.

ΑΠΟΤΕΛΕΣΜΑΤΑ

Μονόδροµη Ανάλυση ∆ιακύµανσης

Ακολουθούν τα αποτελέσµατα από τη σύγκριση των βαθµών στο τέταρτο πρόχειρο διαγώνισµα (quiz4) µεταξύ 1) Λευκών και Ασιατών µε Ισπανόφωνους και Μαύρους και 2) Μη Ισπανόφωνων µε Ισπανόφωνους, αφού έχουµε θέσει εκτός ανάλυσης τους Ιθαγενείς.

ANOVA

QUIZ4

34,297 3 11,432 2,272 ,085483,143 96 5,033517,440 99

Between GroupsWithin GroupsTotal

Sum ofSquares df Mean Square F Sig.

Το ερµηνευτικό στοιχείο που παρουσιάζει ενδιαφέρον στον αρχικό πίνακα της ANOVA είναι ότι, µε βάση µια πιθανότητα p = 0.085, υπάρχει µια διαφορά (ή διαφορές) οριακά σηµαντική στις συγκρίσεις των βαθµών του quiz4 ανάµεσα στις τέσσερις διαφορετικές εθνικότητες. Ακολουθούν οι ορισµοί των όρων του πίνακα ANOVA.

Page 95: Notes Spss

Όρος Ορισµός/ Περιγραφή WITHIN-GROUPS SUM OF SQUARES (=ΑΘΡΟΙΣΜΑ ΤΕΤΡΑΓΩΝΩΝ ΕΝΤΟΣ ΟΜΑ∆ΩΝ)

Το άθροισµα των τετραγώνων των αποκλίσεων µεταξύ του µέσου κάθε οµάδας και των τιµών που έχουν παρατηρηθεί για κάθε έναν συµµετέχοντα που ανήκει σ’ αυτή την οµάδα.

BETWEEN-GROUPS SUM OF SQUARES (=ΑΘΡΟΙΜΑ ΤΕΤΡΑΓΩΝΩΝ ΜΕΤΑΞΥ ΟΜΑ∆ΩΝ)

Το άθροισµα των τετραγώνων των αποκλίσεων µεταξύ του γενικού µέσου και του µέσου κάθε οµάδας πολλαπλασιασµένο µε τον αριθµό των συµµετεχόντων σε κάθε οµάδα.

BETWEEN-GROUPS DF (=ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ ΜΕΤΑΞΥ ΟΜΑ∆ΩΝ)

Αριθµός των οµάδων µείον ένα.

WITHIN-GROUPS DF (=ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ ΕΝΤΟΣ ΟΜΑ∆ΩΝ)

Το άθροισµα των παρατηρήσεων µείον τον αριθµό των οµάδων, µείον ένα.

MEAN SQUARE (=ΜΕΣΟΣ ΤΕΤΡΑΓΩΝΩΝ)

Το άθροισµα των τετραγώνων διαιρεµένο µε τους βαθµούς ελευθερίας.

F RATIO (=ΛΟΓΟΣ F)

Το τετράγωνο του µέσου µεταξύ των οµάδων διαιρεµένο µε το τετράγωνο του µέσου εντός των οµάδων.

SIGNIFICANCE (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ)

Η πιθανότητα η τιµή της παρατήρησης να προέκυψε τυχαία. Το αποτέλεσµα εδώ δείχνει ότι υπάρχει/ουν οριακά σηµαντική/ές διαφορά/ές ανάµεσα στους µέσους των τεσσάρων οµάδων, όπως σηµειώνεται από την τιµή πιθανότητας 0,085.

Descriptives

QUIZ4

20 8,35 1,531 ,342 7,63 9,07 6 1024 7,75 2,132 ,435 6,85 8,65 4 1045 8,04 2,256 ,336 7,37 8,72 2 1011 6,27 3,319 1,001 4,04 8,50 2 10

100 7,84 2,286 ,229 7,39 8,29 2 10

AsianBlackWhiteHispanicTotal

N MeanStd.

DeviationStd.Error

LowerBound

UpperBound

95% ConfidenceInterval for Mean

Minimum Maximum

Όρος Ορισµός/ Περιγραφή N Αριθµός παρατηρήσεων σε κάθε επίπεδο της µεταβλητής

ethnic. MEAN (=ΜΕΣΟΣ) Μέσος βαθµός για κάθε οµάδα STΚΑΙARD DEVIATION

Το τυπικό µέτρο διακύµανσης γύρω από το µέσο

Page 96: Notes Spss

(ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ) STΚΑΙARD ERROER Η τυπική απόκλιση διαιρεµένη µε την τετραγωνική ρίζα του Ν 95% CI (CONFIDENCE INTERVAL) FOR MEAN (=95% ∆ΙΑΣΤΗΜΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΟ ΜΕΣΟ)

Με δεδοµένο ένα µεγάλο αριθµό δειγµάτων µέσα από έναν πληθυσµό, το 95% των µέσων αυτών των δειγµάτων θα βρίσκονται ανάµεσα στην κατώτερη και την ανώτερη τιµή. Αυτές οι τιµές βασίζονται στην κατανοµή t και είναι περίπου ίσοι µε το µέσο ± 2 x το τυπικό σφάλµα.

MINIMUM/ MAXIMUM (ΕΛΑΧΙΣΤΟ/ ΜΕΓΙΣΤΟ)

Η µικρότερη και µεγαλύτερη τιµή που παρατηρήθηκαν γι’ αυτή την οµάδα.

Έλεγχοι Post Hoc:

Multiple Comparisons

Dependent Variable: QUIZ4LSD

,60 ,679 ,379 -,75 1,95,31 ,603 ,613 -,89 1,50

2,08* ,842 ,015 ,41 3,75-,60 ,679 ,379 -1,95 ,75-,29 ,567 ,605 -1,42 ,831,48 ,817 ,074 -,14 3,10-,31 ,603 ,613 -1,50 ,89,29 ,567 ,605 -,83 1,42

1,77* ,755 ,021 ,27 3,27-2,08* ,842 ,015 -3,75 -,41-1,48 ,817 ,074 -3,10 ,14-1,77* ,755 ,021 -3,27 -,27

(J) ETHNICBlackWhiteHispanicAsianWhiteHispanicAsianBlackHispanicAsianBlackWhite

(I) ETHNICAsian

Black

White

Hispanic

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound95% Confidence Interval

The mean difference is significant at the .05 level.*.

Η τιµή του µέσου (µέσος βαθµός για το quiz4) για κάθε µία από τις τέσσερις οµάδες είναι καταχωρηµένη στον προηγούµενο πίνακα. Οι αστερίσκοι (*) υποδηλώνουν ότι υπάρχουν δύο ζεύγη οµάδων, των οποίων οι µέσοι διαφέρουν σηµαντικά (σε επίπεδο p < 0,05) µεταξύ τους: Σύµφωνα µε αυτά τα υποθετικά δεδοµένα, οι Ασιάτες (M = 8,35) και οι Λευκοί (Μ = 8,04) είχαν σηµαντικά µεγαλύτερους βαθµούς στο quiz4 από τους Ισπανόφωνους (Μ=6,27). Προσέξτε τις σχετικές τιµές σηµαντικότητας 0,015 και 0,021. Το γεγονός ότι τα συνολικά αποτελέσµατα της ANOVA έδειξαν µόνον οριακή σηµαντικότητα (p = 0,085) και ότι οι συγκρίσεις κατά ζεύγη έδωσαν δύο

Page 97: Notes Spss

διαφορές που είναι στατιστικά σηµαντικές οφείλεται στο ότι η συνολική ANOVA συγκρίνει όλες τις τιµές ταυτόχρονα (κι εποµένως εξασθενεί η στατιστική ισχύς) ενώ η διαδικασία LSD είναι απλώς µια σειρά ανεξάρτητων ελέγχων t.

Test of Homogeneity of Variances

QUIZ4

5,517 3 96 ,002Levene Statistic

df betweengroups

df withingroups Sig.

Ο έλεγχος Levene’s για την οµοιογένεια της διακύµανσης µε τιµή σηµαντικότητας 0,002 υποδηλώνει ότι οι διακυµάνσεις για τους βαθµούς του quiz4 για κάθε µία από τις εθνικότητες όντως διαφέρουν σηµαντικά. Προσέξτε ότι αυτές οι τιµές ποικίλουν από µία µικρή διακύµανση για τους Ασιάτες της τάξης του 1,532 (=2,34), σε µια πολύ ευρύτερη για τους Ισπανόφωνους ή 3,322 (= 11,02). Οι περισσότεροι ερευνητές αν έβλεπαν ένα τέτοιο αποτέλεσµα, θα έλεγχαν τις κατανοµές ως προς τα µέτρα της κανονικότητας (ασυµµετρία και κύρτωση), και αν έβρισκαν κάτι ασυνήθιστο πιθανότατα θα αγνοούσαν αυτά τα αποτελέσµατα και θα αποδέχονταν την ανάλυση ANOVA ως έγκυρη. Αυτά τα µέτρα οµογένειας της διακύµανσης δρουν περισσότερο ως προειδοποίηση παρά ως κριτήριο ακαταλληλότητας. Πάντως στη µήτρα των συντελεστών αντιπαραβολής (Contrast Coefficients) παρακάτω, θα χρησιµοποιήσετε την ελαφρά λιγότερο ισχυρή εκτίµηση που βασίζεται στην υπόθεση άνισων διακυµάνσεων.

Contrast Coefficients

1 -1 1 -11 1 1 -3

Contrast12

Asian Black White HispanicETHNIC

Contrast Tests

2,37 1,015 2,336 96 ,0225,33 2,166 2,459 96 ,0162,37 1,192 1,989 19,631 ,061

5,33 3,072 1,734 10,949 ,111

Contrast1212

Assume equalvariances

Does notassume equalvariances

Value ofContrast

Std.Error t df

Sig.(2-tailed)

Ο πρώτος πίνακας απλώς ξαναδείχνει τις αντιπαραβολές που αναφέρθηκαν νωρίτερα. Έγιναν δύο είδη συγκρίσεων t: Κάτω από την εκτίµηση ισοδύναµης διακύµανσης, και οι δύο αντιπαραβολές είναι σηµαντικές: ανάµεσα σε Ασιάτες-Λευκούς και Ισπανόφωνους-Μαύρους, (p = 0,022)· ανάµεσα σε Ισπανόφωνους και µη Ισπανόφωνους (p = 0,016). Για την εκτίµηση της άνισης διακύµανσης πάντως καµία από τις αντιπαραβολές δεν πετυχαίνει σηµαντικότητα. Από τι στιγµή που οι

Page 98: Notes Spss

διακυµάνσεις όντως διαφέρουν σηµαντικά, θα έπρεπε να δεχτούµε την εκτίµηση άνισης διακύµανσης ως έγκυρη, πράγµα που έχει ως αποτέλεσµα µη σηµαντικές διαφορές. Παρακάτω ορίζονται οι όροι αυτού του τµήµατος της ανάλυσης.

Όρος Ορισµός/ Περιγραφή VALUE (=ΤΙΜΗ) Παρουσιάζει µικρό ενδιαφέρον επειδή είναι σταθµισµένος

αριθµός. STΚΑΙARD ERROR (=ΤΥΠΙΚΟ ΣΦΑΛΜΑ)

Η τυπική απόκλιση διαιρεµένη µε την τετραγωνική ρίζα του N.

T-VALUES (=ΤΙΜΕΣ Τ)

Για κάθε µία εκτίµηση ίσης ή άνισης διακύµανσης, το t καθορίζεται από την ΤΙΜΗ διαιρεµένη µε το τυπικό σφάλµα.

STΚΑΙARD ERROR (=ΤΥΠΙΚΟ ΣΦΑΛΜΑ)

Η τυπική απόκλιση διαιρεµένη µε την τετραγωνική ρίζα του N.

DF (DEGREES OF FREEDOM) (=ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ)

Ο αριθµός των παρατηρήσεων µείον τον αριθµό των οµάδων για την εκτίµηση ίσων διακυµάνσεων. Είναι ένας ελάχιστα γνωστός τύπος που υπολογίζει την τιµή των κλασµατικών βαθµών ελευθερίας για την εκτίµηση άνισης διακύµανσης.

T PROBABILITY (ΠΙΘΑΝΟΤΗΤΑ Τ)

Η πιθανότητα αυτές οι τιµές να προέκυψαν τυχαία. Τα αποτελέσµατα δείχνουν ότι, για τους βαθµούς στο quiz4, για τις εκτιµήσεις άνισης διακύµανσης, καµία αντιπαραβολή δεν επιτυγχάνει τη σηµαντικότητα.

Page 99: Notes Spss

56

ΜΗ ΠΑΡΑΜΕΤΡΙΚΕΣ ∆ιαδικασίες

Μη παραµετρικοί Έλεγχοι

Βήµα Προς Βήµα

Έλεγχος Ταξινόµησης-Αθροίσµατος Mann-Whitney (Mann-Whitney Rank-Sum test)

Ο έλεγχος Προσήµου(Sign test)

Ο έλεγχος Wilcoxon για Αντιστοιχούµενα Ζευγάρια µε Προσηµοποιηµένη Ταξινόµηση (Wilcoxon Matched –Pairs Signed-Ranks test)

Ο έλεγχος Runs

Ο διωνυµικός έλεγχος (Binomial test)

Ο έλεγχος Kolmogorov-Smirnov για ένα δείγµα (Kolmogorov-Smirnov One-sample test)

Ο έλεγχος χ2 για ένα δείγµα(One-sample Chi-Square test)

Η µονόδροµη ANOVA Fridman(Fridman One-Way ANOVA)

Ο έλεγχος διαµέσου για Κ δείγµατα(K-Sample Median test)

6 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 17 του βιβλίου των George και Mallery

Page 100: Notes Spss

Αυτό το κεφάλαιο ασχολείται µε µη παραµετρικούς ελέγχους. Παραµετρικός έλεγχος είναι o έλεγχος που βασίζεται σε συγκεκριµένες παραµέτρους. Η κρίσιµη παράµετρος, στην οποία βασίζονται οι περισσότερες διαδικασίες που περιγράφονται σ’ αυτό το βιβλίο, είναι ότι τα δεδοµένα που προκύπτουν απ’ τα δείγµατα (και οι πληθυσµοί απ’ τους οποίους προέρχονται αυτά) ακολουθούν την κανονική κατανοµή. Παρόλο που κάποιες λειτουργίες στηρίζονται σε άλλες υποθέσεις ή παραµέτρους (π.χ. διωνυµική κατανοµή ή κατανοµή Poisson), η διαδικασία Μη Παραµετρικοί Έλεγχοι (Nonparametric Tests) ασχολείται κυρίως µε πληθυσµούς που δεν ακολουθούν την κανονική κατανοµή και εξετάζει τον τρόπο διεξαγωγής στατιστικών ελέγχων όταν δεν ισχύει η υπόθεση της κανονικότητας.

Για δεδοµένα που δεν ακολουθούν την κανονική κατανοµή, οι µη παραµετρικοί έλεγχοι χρησιµοποιούν άλλες στατιστικές τεχνικές για να ελέγξουν τις υποθέσεις. Αυτές οι τεχνικές µπορεί να περιλαµβάνουν, µεταξύ άλλων, αναλύσεις βασισµένες σε:

o ιεραρχηµένες τιµές,

o άθροιση του πόσες τιµές σε µια κατανοµή είναι µεγαλύτερες (ή µικρότερες) από τιµές σε άλλη κατανοµή,

o χρήση σταθµικών συγκρίσεων,

o ελέγχους για να καθοριστεί αν κάποια κατανοµή τιµών αποκλίνει από το τυχαίο ή ακολουθεί τη διωνυµική κατανοµή,

o ελέγχους απόκλισης από την κανονικότητα για µία οµάδα,

o συγκρίσεις συχνοτήτων, και

o υπολογισµούς της συχνότητας των τιµών που είναι µεγαλύτερες ή µικρότερες από κάποια γενική διάµεσο για τη σύγκριση οµάδων.

Οι µη παραµετρικοί έλεγχοι µπορούν επίσης να υπολογίσουν στατιστικά µέτρα για κάποιο δείγµα ή να κάνουν συγκρίσεις µεταξύ δύο ή περισσοτέρων δειγµάτων. Παρά τη φαινοµενική πολυπλοκότητα οι περισσότεροι µη παραµετρικοί έλεγχοι είναι µάλλον κατανοητοί και διεξάγονται εύκολα. Επιπλέον, εδώ δεν επιχειρείται κάποια γενική περιγραφή επειδή είναι πιο εποικοδοµητικό να εξηγούµε έναν έλεγχο κάθε φορά.

Για να παρουσιάσουµε τους µη παραµετρικούς ελέγχους θα χρησιµοποιήσουµε ακόµα µια φορά το αρχικό αρχείο δεδοµένων που παρουσιάζεται grades.sav. Οι έλεγχοι θα γίνουν στις ακόλουθες µεταβλητές του αρχείου: φύλο (sex), τα πέντε πρόχειρα διαγωνίσµατα µε άριστα το 10 (quiz1 έως quiz5), το βαθµό της τελικής εξέτασης µε άριστα το 75 (final), τη σύνθεση του δείγµατος όσον αφορά την εθνικότητα (ethnic), και το τµήµα [τρία συνολικά] στο οποίο ανήκουν οι µαθητές (section). Το Ν γι’ αυτό το δείγµα είναι 105.

Υπάρχουν περισσότεροι από εννιά µη παραµετρικοί έλεγχοι αλλά παρουσιάζουµε µόνον αυτούς που χρησιµοποιούνται πιο συχνά. Οι εννέα διαδικασίες που καλύπτονται είναι:

1. Έλεγχος Ταξινόµησης-Αθροίσµατος Mann-Whitney: Ένας έλεγχος για το αν δύο οµάδες διαφέρουν µεταξύ τους µε βάση κάποια ταξινοµηµένα σκορ.

2. Έλεγχος Προσήµου (Sign test): Ελέγχει αν δύο κατανοµές διαφέρουν, βασισµένος σε µια σύγκριση σκορ ανά ζεύγη. ∆ηλαδή, για πόσα από τα σκορ ανά ζεύγη είναι η τιµή της οµάδας Α µεγαλύτερη από την τιµή της οµάδας Β (θετικό πρόσηµο), ή είναι το σκορ της οµάδας Β µεγαλύτερο από το σκορ της οµάδας (αρνητικό πρόσηµο);

Page 101: Notes Spss

3. Ο έλεγχος Wilcoxon για Αντιστοιχούµενα Ζευγάρια µε Προσηµοποιηµένη Ταξινόµηση: Ο ίδιος µε τον έλεγχο προσήµου εκτός από το γεγονός ότι τα θετικά και αρνητικά πρόσηµα σταθµίζονται µε τη µέση ταξινόµηση των θετικών έναντι των αρνητικών συγκρίσεων.

4. Έλεγχος Runs: Ελέγχει κατά πόσο τα στοιχεία µιας διχοτοµικής οµάδας διαφέρουν από µια τυχαία κατανοµή.

5. ∆ιωνυµικός Έλεγχος: Ελέγχει κατά πόσο τα στοιχεία µιας διχοτοµικής οµάδας διαφέρουν από µια διωνυµική κατανοµή (κάθε αποτέλεσµα είναι εξίσου πιθανό).

6. Έλεγχος Kolmogorov-Smirnov σε ένα δείγµα: Ελέγχει κατά πόσο η κατανοµή των µελών µιας οµάδας διαφέρει σηµαντικά από µια κανονική (ή οµοιογενή ή Poisson) κατανοµή.

7. Έλεγχος χ2 σε ένα δείγµα: Ελέγχει κατά πόσο τα πραγµατικά σκορ διαφέρουν σηµαντικά από τα αναµενόµενα σκορ για τα επίπεδα µιας συγκεκριµένης µεταβλητής.

8. Μονόδροµη Ανάλυση Παλινδρόµησης του Fridman: Ελέγχει αν τρεις ή περισσότερες οµάδες διαφέρουν σηµαντικά µεταξύ τους, βασισµένος στη µέση ταξινόµηση των οµάδων παρά στην κατανοµή των τιµών.

9. Έλεγχος διαµέσου για Κ δείγµατα: ελέγχει κατά πόσο δύο ή περισσότερες οµάδες διαφέρουν σηµαντικά µεταξύ τους στον αριθµό των παρατηρήσεων (µέσα στην κάθε οµάδα) που είναι µεγαλύτερες από την τιµή της διαµέσου ή µικρότερες από την τιµή της διαµέσου.

ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

Μη παραµετρικοί έλεγχοι

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια τον συγκεκριµένο έλεγχο που κάθε φορά επιθυµείτε να εκτελέσετε.

Page 102: Notes Spss

Οθόνη 5.1

Μη παραµετρικοί έλεγχοι

Οθόνες που Χρησιµοποιούνται σε Πολλές Μη Παραµετρικές ∆ιαδικασίες

Κάποιες µη παραµετρικές διαδικασίες απαιτούν να ορίσετε τα διαφορετικά επίπεδα µιας µεταβλητής. Όταν ισχύει κάτι τέτοιο είναι απαραίτητο, αν κάνετε κλικ στο πλήκτρο Define Groups (=προσδιορισµός οµάδων) θ’ ανοίξει ένα νέο παράθυρο (Οθόνη 5.2). Αν η µεταβλητή έχει δύο επίπεδα µε κωδικοποίηση 1, και 2, όταν ανοίξει το παράθυρο, πληκτρολογήστε 1, πατήστε το TAB, πληκτρολογήστε 2 και στη συνέχεια πατήστε το Continue. Τότε η µεταβλητή θα έχει αποκτήσει ένα καθορισµένο εύρος και θα µπορείτε να συνεχίσετε µε την ανάλυση.

Εικόνα 5.2

Το παράθυρο Generic Define Groups (=Γενικός Ορισµός Οµάδων)

Page 103: Notes Spss

Το δεύτερο πλαίσιο διαλόγου (στα δεξιά) είναι διαθέσιµο σε πολλές από τις µη παραµετρικές διαδικασίες. Μ’ ένα κλικ στο πλήκτρο Options στο κύριο παράθυρο διαλόγου µπορείτε να ζητήσετε βασικά περιγραφικά (Descriptives) (µέσος, τυπική απόκλιση, ελάχιστο, µέγιστο, και Ν), ή τα τεταρτηµόρια (Quartiles).

ΕΛΕΓΧΟΣ ΤΑΞΙΝΟΜΗΣΗΣ-ΑΘΡΟΙΣΜΑΤΟΣ MANN-WHITNEY

Ο έλεγχος U ταξινόµησης-αθροίσµατος Mann-Whitney επιτυγχάνει ουσιαστικά ό,τι κι ένας έλεγχος t όταν οι κατανοµές των δύο δειγµάτων αποκλίνουν σηµαντικά από την κανονική. Αν οι κατανοµές δεν διαφέρουν σηµαντικά από την κανονική, θα πρέπει να χρησιµοποιείται ο έλεγχος t επειδή έχει µεγαλύτερη ισχύ. Στο παράδειγµά µας εξετάζουµε αν οι γυναίκες και οι άνδρες (η µεταβλητή sex) διαφέρουν σηµαντικά ως προς τη βαθµολογία τους στην τελική εξέταση (η µεταβλητή final). Η διαδικασία Mann-Whitney ταξινοµεί τις 105 βαθµολογίες, καθορίζει τη σειρά για κάθε παρατήρηση, και στη συνέχεια υπολογίζει τη µέση σειρά (θέση στην ταξινόµηση) για τις δύο οµάδες. Σαφώς η οµάδα µε την υψηλότερη µέση σειρά έχει πετύχει υψηλότερη βαθµολογία στην εξέταση. Ο έλεγχος U καθορίζει αν η διαφορά αυτή είναι σηµαντική ή όχι.

Εικόνα 5.3

Το παράθυρο Mann-Whitney Rank-Sum Test (=Γενικός έλεγχος ταξινόµησης-αθροίσµατος Mann-Whitney)

Page 104: Notes Spss

Βήµα Προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια 2 Independent Samples. Ακριβώς, όπως και στο Independent-Samples T-test, επιλέγετε τις µεταβλητές ελέγχου και οµαδοποίησης και διατηρείτε τον εξ’ αρχής επιλεγµένο έλεγχο Mann-Whitney U.

Αποτελέσµατα

Ranks

64 55,81 3572,0041 48,61 1993,00

105

genderFEMALEMALETotal

finalN Mean Rank Sum of Ranks

Test Statisticsa

1132,0001993,000

-1,184,237

Mann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)

final

Grouping Variable: gendera.

Προσέξτε ότι η µέση σειρά των γυναικών είναι υψηλότερη (55,81) από τη µέση σειρά των ανδρών (48,61) δηλώνοντας ότι οι γυναίκες πέτυχαν υψηλότερη βαθµολογία από τους άνδρες. Το στατιστικό µέγεθος U είναι ο αριθµός των φορών που όσοι ανήκουν στην οµάδα χαµηλής σειράς στην ταξινόµηση (άνδρες) προηγούνται όσων ανήκουν στην οµάδα υψηλής σειράς στην ταξινόµηση (γυναίκες). Το Ζ είναι το τυποποιηµένο µέτρο που σχετίζεται µε την τιµή σηµαντικότητας (p = 0,237). Από τη στιγµή που η τιµή p είναι µεγάλη, συµπεραίνουµε ότι οι γυναίκες δεν πέτυχαν σηµαντικά υψηλότερη βαθµολογία από τους άνδρες.

Ο ΕΛΕΓΧΟΣ ΠΡΟΣΗΜΟΥ (SIGN TEST)

Ο έλεγχος προσήµου χρησιµοποιεί τις συγκρίσεις ανά ζεύγη δύο διαφορετικών κατανοµών για να εντοπίσει ποια είναι µεγαλύτερη από ποια και στη συνέχεια, µε βάση αυτή την πληροφορία, καθορίζει αν οι δύο κατανοµές διαφέρουν σηµαντικά µεταξύ τους. Για να παρουσιάσουµε τον έλεγχο αυτό, συγκρίνουµε τους βαθµούς στο πρώτο πρόχειρο διαγώνισµα (quiz1) µε τους βαθµούς στο δεύτερο πρόχειρο διαγώνισµα (quiz2). Εξ’ ορισµού, ο έλεγχος προσήµου συγκρίνει τη δεύτερη κατανοµή µε την πρώτη. Όσον αφορά την πρώτη παρατήρηση, η quiz1 ήταν 9 και η

Page 105: Notes Spss

quiz2 ήταν 7. Αυτό θα βαθµολογούνταν ως αρνητική (-) διαφορά. Όσον αφορά τη δεύτερη παρατήρηση, η quiz1 ήταν 6 και η quiz2 ήταν 7. Αυτό θα βαθµολογούνταν ως θετική (+) διαφορά. Ο έλεγχος προσήµου αθροίζει όλα τα θετικά, τα αρνητικά και τις ισοπαλίες και στη συνέχεια υπολογίζει κάποια τιµή z και κάποια τιµή p σχετικά µε τη συχνότητα των θετικών και των αρνητικών.

Εικόνα 5.4

Το παράθυρο Sign Test (=Έλεγχος Προσήµου)

Βήµα προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια 2 Related Samples. Eπιλέγετε τις µεταβλητές µε τη λογική που εφαρµόζεται στο Paired-Samples T-test, και σηµειώνετε τον έλεγχο Sign.

Αποτελέσµατα

Frequencies

345021

105

Negative Differencesa

Positive Differencesb

Tiesc

Total

quiz2 - quiz1N

quiz2 < quiz1a.

quiz2 > quiz1b.

quiz2 = quiz1c.

Page 106: Notes Spss

Test Statisticsa

-1,637,102

ZAsymp. Sig. (2-tailed)

quiz2 - quiz1

Sign Testa.

Προσέξτε ότι σε 34 παρατηρήσεις η quiz2 είχε µικρότερη τιµή από την quiz1, σε 50 παρατηρήσεις η quiz2 είχε µεγαλύτερη τιµή από την quiz1 και σε 34 παρατηρήσεις και οι δύο µεταβλητές είχαν την ίδια τιµή. Η τιµή z που καθορίζεται απ’ αυτές τις τιµές είναι -1,637, µε αντίστοιχη τιµή p =0,102. Αυτό σηµαίνει ότι τα δύο πρόχειρα διαγωνίσµατα δεν διαφέρουν σηµαντικά µεταξύ τους. Θα πρέπει να σηµειωθεί ότι εφόσον οι κατανοµές των βαθµών και στα δύο διαγωνίσµατα είναι κανονικές, θα ήταν κατάλληλος ο έλεγχος t. Αν γίνει έλεγχος t στα δεδοµένα αυτά, προκύπτει ότι οι βαθµοί του quiz2 είναι σηµαντικά µεγαλύτεροι από τους βαθµούς του quiz1 (p = 0,005). Ο έλεγχος t είναι σηµαντικός ενώ ο έλεγχος προσήµου δεν είναι επειδή ο δεύτερος έχει µικρότερη στατιστική ισχύ.

Ο ΕΛΕΓΧΟΣ WILCOXON

Η δυσκολία στον έλεγχο προσήµου είναι ότι µια διαφορά της τάξης του 10 (10 στο ένα και 0 στο άλλο) ανάµεσα σε ζεύγη διαγωνισµάτων και µια διαφορά της τάξης του 1 (π.χ. 6 στο ένα και 5 στο άλλο) θα κωδικοποιηθούν µε τον ίδιο τρόπο (σαν αρνητικές). Ο έλεγχος Wilcoxon εµπεριέχει πληροφορίες σχετικές µε το µέγεθος της διαφοράς ανάµεσα σε ζεύγη τιµών. Για να υπολογιστεί αυτή η τιµή, ταξινοµείται πρώτα το µέγεθος των διαφορών (αγνοώντας τα πρόσηµα) από το µεγαλύτερο στο µικρότερο. Στη συνέχεια αθροίζονται οι σειρές ταξινόµησης για τα αρνητικά πρόσηµα (quiz2<quiz1) και υπολογίζεται ο µέσος όρος τους· έπειτα αθροίζονται οι σειρές ταξινόµησης για τα θετικά πρόσηµα (quiz2>quiz1) και υπολογίζεται ο µέσος όρος τους. Τέλος, οι τιµές σηµαντικότητας υπολογίζονται µε βάση τις τιµές z.

Εικόνα 5.5

Το παράθυρο Wilcoxon Matched –Pairs Signed-Ranks test

Page 107: Notes Spss

Βήµα προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια 2 Independent Samples. Ακριβώς, όπως και στο Independent-Samples T-test, επιλέγετε τις µεταβλητές ελέγχου και οµαδοποίησης και διατηρείτε τον εξ’ αρχής επιλεγµένο έλεγχο Mann-Whitney U.

Αποτελέσµατα

Ranks

34a 35,62 1211,0050b 47,18 2359,0021c

105

Negative RanksPositive RanksTiesTotal

quiz2 - quiz1N Mean Rank Sum of Ranks

quiz2 < quiz1a.

quiz2 > quiz1b.

quiz2 = quiz1c.

Test Statisticsb

-2,612a

,009ZAsymp. Sig. (2-tailed)

quiz2 - quiz1

Based on negative ranks.a.

Wilcoxon Signed Ranks Testb.

Προσέξτε τις οµοιότητες µε τον έλεγχο προσήµου (προηγούµενη σελίδα). Η συχνότητα των αρνητικών ταξινοµήσεων (negative ranks), των θετικών (positive ranks) και των ισοπαλιών (ties) είναι ίδια. Επιπλέον υπάρχουν πληροφορίες για τη µέση ταξινόµηση κάθε οµάδας µε βάση το συνολικό µέγεθος των διαφορών. Ενώ η οπτική εξέταση των αποτελεσµάτων του ελέγχου προσήµου δείχνει ότι οι βαθµοί στο quiz2 είναι υψηλότεροι από τους βαθµούς του quiz1, οι επιπλέον πληροφορίες σχετικά µε το µέγεθος των διαφορών τώρα δίνουν µια πολύ µεγαλύτερη τιµή z (- 2,61) και µια πολύ µικρότερη τιµή p (0,009). Ενώ ο έλεγχος προσήµου δεν αποκάλυψε σηµαντική διαφορά µεταξύ των δύο οµάδων, ο έλεγχος Wilcoxon το έκανε. Ο έλεγχος αυτός, παρότι είναι αρκετά βελτιωµένος σε σχέση µε τον έλεγχο προσήµου, δεν είναι τόσο ισχυρός όσο ο έλεγχος t, ο οποίος δίνει τιµή p =0,005. Αν οι κατανοµές είναι κανονικές, χρησιµοποιείστε ελέγχους t αντί για µη παραµετρικούς ελέγχους.

Ο ΕΛΕΓΧΟΣ RUNS

Ο έλεγχος runs χρησιµοποιείται για να δούµε αν τα στοιχεία ενός συγκεκριµένου συνόλου δεδοµένων είναι τυχαία κατανεµηµένα. Αν η αλληλουχία ΗΗΤΗΤΤΗΤΤΗΤΗΤΤΤΤΗΤΗ προκύπτει απ’ το στρίψιµο ενός νοµίσµατος, διαφέρει

Page 108: Notes Spss

σηµαντικά από το τυχαίο; Μ’ άλλα λόγια, στρίβουµε ένα αµερόληπτο νόµισµα; ∆υστυχώς αυτή η διαδικασία λειτουργεί µόνον µε διχοτοµικά δεδοµένα (ακριβώς δύο πιθανά αποτελέσµατα). ∆εν είναι δυνατόν να ελέγξουµε, για παράδειγµα, αν ρίχνουµε ένα «πειραγµένο» ζάρι. Παραµένοντας πιστοί στην απόφασή µας να χρησιµοποιούµε το αρχείο grades.sav για να παρουσιάζουµε όλες τις διαδικασίες σ’ αυτό το κεφάλαιο, θα ελέγξουµε αν οι άνδρες και οι γυναίκες του αρχείου µας έχουν κατανεµηθεί τυχαία στο σύνολο των δεδοµένων µας.

Οθόνη 5.6

Το παράθυρο Runs Test

Βήµα προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια Runs. Εµφανίζεται η οθόνη 5.6 κι εκεί ορίζετε τη µεταβλητή ελέγχου που επιθυµείτε (gender, στην περίπτωσή µας). Το πλαίσιο δίπλα στην επιλογή Custom λειτουργεί µε τον ίδιο τρόπο που λειτουργεί η επιλογή Cut Point στο Intdependent-Samples T-test και χωρίζει τις παρατηρήσεις της µεταβλητής ελέγχου σε δύο οµάδες.

Αποτελέσµατα

Runs Test

2,00105

50-,202,840

Test Valuea

Total CasesNumber of RunsZAsymp. Sig. (2-tailed)

gender

User-specified.a.

Τα αποτελέσµατα δείχνουν ότι υπάρχουν περισσότερα από 50 runs. Το run µετράει τον αριθµό των φορών που υπάρχει στα δεδοµένα αλλαγή από έναν κωδικό σε έναν

Page 109: Notes Spss

άλλο. Έτσι µια µοναδική τιµή (που αλλάζει στην επόµενη παρατήρηση) θεωρείται run του 1. Βεβαίως συµπεριλαµβάνονται και µεγαλύτερα runs στα 50 που φαίνονται στο αποτέλεσµα. Τιµή ελέγχου (test value) είναι ο αριθµός που διακρίνει µεταξύ των δύο οµάδων. Το αποτέλεσµα χρησιµοποιεί 64 γυναίκες (<2) και 41 άνδρες (≥2).Οι τιµές z και p εξαρτώνται από το σύνολο των runs. Αυτός ο έλεγχος µετατρέπει τον αριθµό των runs σε στατιστικό z από το οποίο καθορίζεται η πιθανότητα. Η σηµαντικότητα που δηλώνεται εδώ (p = 0,840) υποδηλώνει ότι η διάταξη των ανδρών και των γυναικών στον κατάλογο δεν αποκλίνει σηµαντικά από το τυχαίο.

Ο ∆ΙΩΝΥΜΙΚΟΣ ΕΛΕΓΧΟΣ

Ο διωνυµικός έλεγχος µετράει αν µια κατανοµή τιµών ακολουθεί τη διωνυµική κατανοµή. Η διωνυµική κατανοµή υποθέτει ότι όλα τα δυνατά αποτελέσµατα είναι εξίσου πιθανά (p = 0,5). Αν στρίψατε ένα αµερόληπτο νόµισµα 100 φορές θα περιµένατε να έρθει περίπου πενήντα φορές κορώνα και 50 γράµµατα. Θα εφαρµόσουµε τον διωνυµικό έλεγχο στην κατανοµή ανδρών και γυναικών των δεδοµένων µας. Γνωρίζουµε ήδη ότι υπάρχουν 41 άνδρες και 64 γυναίκες κι εποµένως η χρήση του διωνυµικού ελέγχου γίνεται απλώς για να παρουσιάσουµε πώς λειτουργεί η διαδικασία. Παρουσιάζει εύλογο πάντως ενδιαφέρον να δούµε αν αυτή η κατανοµή διαφέρει σηµαντικά από το 52,5 άνδρες και 52,5 γυναίκες.

Οθόνη 5.7

Το παράθυρο Binomial Test

Βήµα προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια Binomial. Εµφανίζεται η οθόνη 5.7 κι εκεί ορίζετε τη µεταβλητή ελέγχου που επιθυµείτε (gender, στην περίπτωσή µας). Τα αποτελέσµατα του ελέγχου θα δείξουν αν ο αριθµός των ανδρών και των γυναικών διαφέρει σηµαντικά από την ισοδύναµη πιθανότητα.

Αποτελέσµατα

Page 110: Notes Spss

Binomial Test

MALE 41 ,39 ,50 ,031a

FEMALE 64 ,61105 1,00

Group 1Group 2Total

genderCategory N

ObservedProp. Test Prop.

Asymp. Sig.(2-tailed)

Based on Z Approximation.a.

Η αναλογία 0,50 του ελέγχου είναι η αναµενόµενη αναλογία για τη διωνυµική κατανοµή. Η αναλογία που παρατηρείται είναι ο µεγαλύτερος από τους δύο αριθµούς (64 γυναίκες) διαιρεµένος µε το σύνολο των παρατηρήσεων (105). Η τιµή p που σχετίζεται µε αυτή τη σύγκριση είναι 0,031, δείχνοντας ότι οι αριθµοί ανδρών και γυναικών όντως διαφέρουν σηµαντικά από τη διωνυµική υπόθεση της ισοδύναµης πιθανότητας για το καθένα.

Ο ΕΛΕΓΧΟΣ KOLMOGOROV-SMIRNOV ΓΙΑ ΕΝΑ ∆ΕΙΓΜΑ

Αυτός ο έλεγχος έχει σχεδιαστεί για να µετράει αν κάποια συγκεκριµένη κατανοµή διαφέρει σηµαντικά από την κανονική (Nornal) κατανοµή (η ασυµµετρία και η κύρτωση της κατανοµής ισούνται µε µηδέν), από την οµοιόµορφη (Uniform) κατανοµή (οι τιµές είναι ισοµερώς κατανεµηµένες, όπως οι αριθµοί 1-100 διαδοχικά), από την κατανοµή Poisson (η τιµή λ ισούται µε το µέσο και τη διακύµανση της κατανοµής· καθώς το λ µεγαλώνει, η κατανοµή προσεγγίζει την κανονικότητα), ή από την εκθετική (Exponential). Η διαδικασία βασίζεται σε µια σύγκριση της αθροιστικής κατανοµής του δείγµατος µε την υποθετική (κανονική, οµοιόµορφη, ή Poisson) αθροιστική κατανοµή. Για να παρουσιάσουµε αυτή τη διαδικασία θα δούµε αν οι βαθµοί στην τελική εξέταση (final) από το αρχείο grades.sav ακολουθούν την κανονική κατανοµή.

Οθόνη 5.8

Το παράθυρο One-Sample Kolmogorov-Smirnov Test

Βήµα προς Βήµα

Page 111: Notes Spss

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια 1-Sample K-S. Εµφανίζεται η οθόνη 5.8 κι εκεί ορίζετε τη µεταβλητή ελέγχου που επιθυµείτε (final, στην περίπτωσή µας). Τα αποτελέσµατα θα δείξουν αν η µεταβλητή final αποκλίνει σηµαντικά απ’ το κανονικό.

Αποτελέσµατα

One-Sample Kolmogorov-Smirnov Test

10561,487,943

,064,048

-,064,660,777

NMeanStd. Deviation

Normal Parametersa,b

AbsolutePositiveNegative

Most ExtremeDifferences

Kolmogorov-Smirnov ZAsymp. Sig. (2-tailed)

final

Test distribution is Normal.a.

Calculated from data.b.

Πρώτα ορίζονται ο µέσος, η τυπική απόκλιση, και το Ν (αριθµός παρατηρήσεων) του δείγµατος. Οι πιο ακραίες διαφορές προσδιορίζουν τη µεγαλύτερη θετική διαφορά και τη µικρότερη αρνητική διαφορά ανάµεσα στο δείγµα και τις υποθετικές κατανοµές (σε τιµές z). Η τιµή z της Kolmogorov-Smirnov δηλώνει µια πιθανότητα ίση µε 0,777. Η µεγάλη τιµή σηµαντικότητας δηλώνει ότι η κατανοµή των βαθµών της τελικής εξέτασης δεν διαφέρει σηµαντικά από το κανονικό. Ο ΕΛΕΓΧΟΣ CHI-SQUARE (χ2) ΓΙΑ ΕΝΑ ∆ΕΙΓΜΑ Αυτή η διαδικασία κάνει τον έλεγχο chi square για ένα δείγµα αντί για τον πιο παραδοσιακό έλεγχο chi square σε δεδοµένα που προκύπτουν από διασταύρωση πινάκων. Οι αναµενόµενες τιµές είναι απλώς ο συνολικός αριθµός των παρατηρήσεων διαιρεµένος µε τον αριθµό των επιπέδων µιας µεταβλητής. Για να παρουσιάσουµε τη διαδικασία θα κάνουµε µια ανάλυση chi square στη µεταβλητή ethnic από το αρχείο grades.sav. Με τα πέντε επίπεδα της συγκεκριµένης µεταβλητής κι ένα Ν = 105, η αναµενόµενη τιµή για κάθε κελί θα είναι 105/5 = 21. Ένα ωραίο χαρακτηριστικό του πλαισίου διαλόγου είναι ότι αν δεν περιµένετε η κατανοµή να είναι οµοιόµορφη, µπορείτε να κάνετε κλικ στην επιλογή Values και να ορίσετε τις αναλογίες που περιµένετε. Αν το δείγµα σας προέρχεται από κάποιον πληθυσµό που αποτελείται από 10% Αµερικανούς-Ινδιάνους, 20% Ασιάτες, 20% Μαύρους, 40% Λευκούς, και 10% Ισπανόφωνους, µπορείτε να κάνετε τον έλεγχο γι’ αυτή την κατανοµή, ως εξής: πληκτρολογήστε 1, κάντε κλικ στο Add, πληκτρολογήστε 2, κάντε κλικ στο Add, πληκτρολογήστε 2, κάντε κλικ στο Add, πληκτρολογήστε 4, κάντε κλικ στο Add, πληκτρολογήστε 1, κάντε κλικ στο Add. Έτσι η διαδικασία θα ελέγξει το δείγµα σας µε βάση αυτές τις αναλογίες.

Page 112: Notes Spss

Οθόνη 5.9

Το παράθυρο Chi-Square Test

Βήµα προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια Chi-Square. Εµφανίζεται η οθόνη 5.9 κι εκεί ορίζετε τη µεταβλητή ελέγχου που επιθυµείτε (ethnic, στην περίπτωσή µας). Τα αποτελέσµατα θα δείξουν αν οι αριθµοί των παρατηρήσεων σε κάθε εθνικότητα διαφέρουν σηµαντικά.

Αποτελέσµατα

ETHNICIT

4 21,0 -17,020 21,0 -1,023 21,0 2,048 21,0 27,010 21,0 -11,0

105

12345Total

Observed N Expected N Residual

Test Statistics

54,4764

,000

Chi-Squarea

dfAsymp. Sig.

ETHNICIT

0 cells (,0%) have expected frequencies less than5. The minimum expected cell frequency is 21,0.

a.

Η οπτική επισκόπηση των διαφορών ανάµεσα στις πραγµατικές και τις αναµενόµενες τιµές αποκαλύπτει µεγάλες ασυµφωνίες. Τα υπόλοιπα είναι οι πραγµατικές τιµές µείον τις αντίστοιχες αναµενόµενες. Ο τύπος της chi-square περιγράφεται στο πρώτο

Page 113: Notes Spss

κεφάλαιο. Οι βαθµοί ελευθερίας είναι ο αριθµός των επιπέδων µείον 1. Το πολύ χαµηλό επίπεδο εµπιστοσύνης δείχνει ότι ο διαχωρισµός της τάξης µε βάση την εθνικότητα αποκλίνει σηµαντικά από τις αναµενόµενες τιµές (ίδια συχνότητα για κάθε εθνικότητα). Η ΜΟΝΟ∆ΡΟΜΗ ANOVA FRIEDMAN Η µονόδροµη ANOVA Friedman είναι παρόµοια µε την παραδοσιακή ανάλυση διακύµανσης έχοντας δύο αξιοσηµείωτες διαφορές: (α) Οι συγκρίσεις στη διαδικασία Friedman βασίζονται στην µέση θέση (ταξινόµηση) των µεταβλητών αντί στους µέσους και τις τυπικές αποκλίσεις των µη επεξεργασµένων τιµών, και (β) αντί να υπολογίζει κάποιο λόγο F, η Friedman, στην ανάλυση chi-square, συγκρίνει ταξινοµηµένες τιµές µε αναµενόµενες. Η ισχύς της λειτουργίας Friedman είναι µικρότερη από αυτή της συνηθισµένης ανάλυσης διακύµανσης, αλλά αν οι κατανοµές σας αποκλίνουν σηµαντικά από την κανονικότητα, θα πρέπει να χρησιµοποιείται η µονόδροµη ANOVA Friedman. Πρόκειται για µια απλή διαδικασία που δεν επιτρέπει ούτε post hoc ελέγχους, όπως ο Scheffé ή ο Tukey, ούτε προγραµµατισµένες αντιπαραβολές. Για να την παρουσιάσουµε, θα δούµε αν οι βαθµοί στα πέντε πρόχειρα διαγωνίσµατα (απ’ το quiz1 ως το quiz5) από το αρχείο grades.sav διαφέρουν σηµαντικά µεταξύ τους. Εικόνα 5.10

Το παράθυρο Μονόδροµη

ANOVA Friedman

Βήµα προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια K Related Samples. Εµφανίζεται η οθόνη 5.10 κι εκεί ορίζετε τις µεταβλητές ελέγχου που επιθυµείτε (quiz1-quiz5, στην περίπτωσή µας). ∆ιατηρείτε την επιλογή του ελέγχου Friedman.

Αποτελέσµατα

Page 114: Notes Spss

Ranks

2,683,073,343,042,88

quiz1quiz2quiz3quiz4quiz5

Mean Rank

Test Statisticsa

10512,411

4,015

NChi-SquaredfAsymp. Sig.

Friedman Testa.

Οι τιµές µέσης θέσης ταξινόµησης (Mean Rank) καθορίζονται ως εξής: Οι 525 βαθµοί των διαγωνισµάτων ταξινοµούνται από το µεγαλύτερο στο χαµηλότερο και αριθµούνται από 1 (για το χαµηλότερο βαθµό) µέχρι 11 (για το µεγαλύτερο). Υπάρχουν 11 πιθανοί βαθµοί (0 ως 10), και θα υπάρχουν φυσικά πολλές συχνότητες για κάθε επίπεδο. Οι ταξινοµήσεις για κάθε ένα από τα πέντε διαγωνίσµατα αθροίζονται και διαιρούνται µε το 105. Η τιµή σηµαντικότητας για την ανάλυση chi-square (p =0,015) δείχνει ότι δεν υπάρχει σηµαντική διαφορά ανάµεσα στα πέντε διαγωνίσµατα. Η διαφορά θα µπορούσε να υπάρχει οπουδήποτε µέσα στις πιθανές συγκρίσεις κατά ζεύγη. Μια οπτική επισκόπηση θα έδειχνε ότι το quiz1 (Μ =2,68) πιθανώς διαφέρει σηµαντικά από το quiz3 ( Μ =3,34). Ο ΕΛΕΓΧΟΣ ∆ΙΑΜΕΣΟΥ ΓΙΑ Κ ∆ΕΙΓΜΑΤΑ Η τελευταία διαδικασία αυτού του κεφαλαίου αφορά τον υπολογισµό της διαµέσου δύο ή περισσότερων κατανοµών και στη συνέχεια τη σύγκριση που θα δείξει αν οι τιµές κάτω από τη γενική διάµεσο (διάµεσος για όλες τις οµάδες) διαφέρουν σηµαντικά από τις τιµές πάνω από τη γενική διάµεσο για οµάδα. Η ανάλυση chi-square χρησιµοποιείται για τον υπολογισµό επιπέδων σηµαντικότητας. Για να την παρουσιάσουµε θα συγκρίνουµε τους βαθµούς της τελικής εξέτασης (final) για κάθε ένα από τα τρία τµήµατα (sections). Αυτή η διαδικασία πρόκειται να ταξινοµήσει τους βαθµούς και των τριών τµηµάτων προκειµένου να προσδιορίσει τη γενική διάµεσο. Στη συνέχεια υπολογίζεται ο αριθµός των βαθµών πάνω απ’ αυτή τη διάµεσο και ο αριθµός των βαθµών κάτω απ’ αυτή για κάθε τµήµα. Αν κάποιο τµήµα αποκλίνει σηµαντικά από την σχεδόν εξίσωση των βαθµών πάνω και κάτω από τη γενική διάµεσο, αυτό θα σηµαίνει ότι µπορεί να υπάρχει κάποιος µεροληπτικός παράγοντας σ’ αυτό το τµήµα.

Page 115: Notes Spss

Εικόνα 5.11

Το παράθυρο Έλεγχος ∆ιαµέσου για Κ ∆είγµατα

Βήµα προς Βήµα

Από το µενού Analyze, επιλέγετε την εντολή Non Parametric Tests και στη συνέχεια K Independent Samples. Εµφανίζεται η οθόνη 5.11 κι εκεί ορίζετε τη µεταβλητή ελέγχου που επιθυµείτε (final, στην περίπτωσή µας) και τη µεταβλητή οµαδοποίησης (section, στην περίπτωσή µας). Στην επιλογή Define Range πληκτρολογείτε την ελάχιστη και τη µέγιστη τιµή που µπορεί να πάρει η µεταβλητή σας (1 και 3, στην περίπτωσή µας). Επιλέγετε τον έλεγχο Median. Τα αποτελέσµατα θα δείξουν αν η κατανοµή των τιµών της τελικής εξέτασης από τα τρία τµήµατα διαφέρουν µεταξύ τους.

Αποτελέσµατα

Frequencies

17 16 1516 23 18

> Median<= Median

final1 2 3

section

Test Statisticsb

10562,00

,794a

2,672

NMedianChi-SquaredfAsymp. Sig.

final

0 cells (,0%) have expected frequencies less than5. The minimum expected cell frequency is 15,1.

a.

Grouping Variable: sectionb.

Page 116: Notes Spss

Οι πίνακες που βλέπετε είναι σαφείς και δείχνουν τον αριθµό των βαθµών σε κάθε τµήµα που είναι µεγαλύτεροι από τη διάµεσο και τον αριθµό των βαθµών σε κάθε τµήµα που είναι µικρότεροι από τη διάµεσο. Στον πίνακα σηµειώνεται η τιµή της γενικής διαµέσου (62) µαζί µε την τιµή της chi-square που καθορίζεται από τη σύγκριση των πραγµατικών τιµών και των αναµενόµενων τιµών. Οι βαθµοί ελευθερίας είναι τα επίπεδα της µιας µεταβλητής µείον ένα (3 – 1) επί τα επίπεδα της άλλης µεταβλητής µείον ένα (2 – 1). Η τιµή σηµαντικότητας (p = 0,672) δείχνει ότι η κατανοµή των βαθµών σε κάθε τµήµα δεν διαφέρει σηµαντικά από τις προβλεπόµενες τιµές.

Page 117: Notes Spss

67

Απλή Γραµµική

ΠΑΛΙΝ∆ΡΟΜΗΣΗ

Απλή Γραµµική Παλινδρόµηση

Αναµενόµενες Τιµές

Η Εξίσωση της Παλινδρόµησης

Το Επεξηγηµένο µέρος της ∆ιακύµανσης

Μη γραµµικές Σχέσεις

Βήµα Προς Βήµα

Αποτελέσµατα: Γραµµική Παλινδρόµηση

Αποτελέσµατα: Μη γραµµική Παλινδρόµηση

ΑΣΚΗΣΕΙΣ

7 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 15 του βιβλίου των George και Mallery

Page 118: Notes Spss

Η διαδικασία της Παλινδρόµησης (Regression) έχει σχεδιαστεί να εκτελεί είτε απλή παλινδρόµηση (Κεφάλαιο 5) είτε πολλαπλή παλινδρόµηση (Κεφάλαιο 6). Χωρίζουµε την εντολή σε δύο κεφάλαια κυρίως για λόγους σαφήνειας. Αν ο αναγνώστης δεν είναι εξοικειωµένος µε την πολλαπλή παλινδρόµηση, αυτό το κεφάλαιο που αφορά την απλή παλινδρόµηση, θα λειτουργήσει σαν εισαγωγή. Πολλά πράγµατα θα καλυφθούν στο εισαγωγικό κοµµάτι αυτού του κεφαλαίου: (α) η έννοια των αναµενόµενων τιµών και η εξίσωση της παλινδρόµησης, (β) η σχέση µεταξύ διµεταβλητής συσχέτισης και απλής παλινδρόµησης, (γ) το κοµµάτι της διακύµανσης σε µια µεταβλητή που εξηγείται από κάποια άλλη, και (δ) ένας έλεγχος για µη γραµµικές σχέσεις.

Σ’ αυτό το σηµείο πρέπει να σας προειδοποιήσουµε για κάποια πράγµατα: Πρώτον, για την ανάλυση παλινδρόµησης έχουν γραφτεί πολλοί χοντροί τόµοι. Σε καµία περίπτωση δεν προσπαθούµε µέσα σε λίγες σελίδες να αντιγράψουµε αυτές τις προσπάθειες. Οι εισαγωγές αυτών των δύο κεφαλαίων έχουν σχεδιαστεί κυρίως για να δώσουν µια επισκόπηση, µια πρώτη ιδέα για την διαδικασία της παλινδρόµησης. ∆εύτερον, σ’ αυτό το κεφάλαιο (και στο Κεφάλαιο 6), εκτός από την περιγραφή των γραµµικών σχέσεων εξηγούµε πώς να κάνετε παλινδρόµηση που εξετάζει και µη γραµµικές τάσεις στα δεδοµένα. Συµβουλεύουµε εκείνους που δεν είναι ιδιαίτερα εξοικειωµένοι µε την παλινδρόµηση να αφιερώσουν το χρόνο που απαιτείται για να κατανοήσουν πλήρως τη γραµµική παλινδρόµηση πριν επιχειρήσουν την τους πολύ λιγότερο συχνούς ελέγχους για µη γραµµικές τάσεις.

ΑΝΑΜΕΝΟΜΕΝΕΣ ΤΙΜΕΣ ΚΑΙ Η ΣΥΝΑΡΤΗΣΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ

Υπάρχουν πολλές φορές που, µε δεδοµένες κάποιες πληροφορίες σχετικά µε ένα χαρακτηριστικό ενός συγκεκριµένου φαινοµένου, έχουµε µια ιδέα για τη φύση κάποιου άλλου χαρακτηριστικού. Ας πάρουµε το ύψος και το βάρος των ενηλίκων ανθρώπων. Αν ξέρουµε ότι κάποιος έχει ύψος 2.14m, µπορούµε να υποθέσουµε (µε σχετική βεβαιότητα) ότι πιθανότατα θα ζυγίζει περισσότερο από 91 κιλά. Αν κάποιος έχει ύψος 1.37m, θα υποθέταµε ότι θα πρέπει να ζυγίζει λιγότερο από 45 κιλά. Υπάρχουν πολλά τέτοια φαινόµενα, στα οποία, µε δεδοµένες κάποιες πληροφορίες σχετικά µε µια µεταβλητή, έχουµε και κάποια στοιχεία για µια άλλη: Ο δείκτης IQ και οι ακαδηµαϊκές επιδόσεις, η λήψη οξυγόνου και η δυνατότητα να τρέξεις γρήγορα ένα µίλι, το ποσοστό των γρήγορων συσπάσεων στις µυϊκές ίνες και η ταχύτητα σε µια κούρσα 100 µέτρων, η µάρκα του αυτοκινήτου που έχει κάποιος και η οικονοµική του κατάσταση, ο µέσος όρος των θερµίδων που καταναλώνονται καθηµερινά και το σωµατικό βάρος, τα αισθήµατα συµπάθειας απέναντι σε κάποιον που βρίσκεται σε ανάγκη και η πιθανότητα προσφοράς βοήθειας προς αυτόν. Στη ζωή µας βγάζουµε χιλιάδες τέτοια συµπεράσµατα (π.χ. αυτός είναι παχύσαρκος, άρα πρέπει να τρώει πολύ). Κάποιες φορές τα συµπεράσµατά µας είναι σωστά, κάποιες άλλες όχι. Η απλή παλινδρόµηση έχει σχεδιαστεί για να µας βοηθάει στην εξαγωγή ορθότερων συµπερασµάτων. ∆εν µπορεί να εγγυηθεί ότι τα συµπεράσµατά µας είναι σωστά, αλλά µπορεί να προσδιορίσει την πιθανότητα να είναι βάσιµα· και µε δεδοµένη την τιµή µιας µεταβλητής, µπορεί να προβλέψει την πιθανότερη τιµή για την άλλη µεταβλητή βασιζόµενη σε διαθέσιµες πληροφορίες.

Για να παρουσιάσουµε την παλινδρόµηση θα χρησιµοποιήσουµε ένα νέο παράδειγµα. Παρότι θα ήταν δυνατό να χρησιµοποιήσουµε το αρχείο grades.sav για να παρουσιάσουµε την απλή παλινδρόµηση (π.χ. η επίδραση των προηγούµενων µέσων όρων GPA στην τελική βαθµολογία) επιλέξαµε να δηµιουργήσουµε νέα δεδοµένα, µε τα οποία θα µπορούµε να παρουσιάσουµε και τη γραµµική και τη µη γραµµική παλινδρόµηση. Το νέο αρχείο ονοµάζεται anxiety.sav και αποτελείται από σύνολο

Page 119: Notes Spss

δεδοµένων, στο οποίο 73 µαθητές βαθµολογούνται σχετικά µε το επίπεδο άγχους πριν από τις εξετάσεις σε κλίµακα από καθόλου (0) µέχρι υψηλό (10), και στη συνέχεια αξιολογούνται σε µια εξέταση µε άριστα το 100. Η υπόθεση για κάποια γραµµική σχέση θα µπορούσε να είναι ότι εκείνοι που έχουν υπερβολικά λίγο άγχος θα πάρουν χαµηλό βαθµό επειδή δεν ενδιαφέρονται αρκετά και ότι εκείνοι που έχουν µεγάλο άγχος θα πάρουν καλύτερο βαθµό επειδή έχουν τα απαιτούµενα κίνητρα να προετοιµαστούν καλύτερα για τις εξετάσεις. Η εξαρτηµένη µεταβλητή (κριτήριο) είναι η exam (=εξέταση) και η ανεξάρτητη µεταβλητή (παράγοντας πρόβλεψης) είναι η anxiety (=άγχος). Μ’ άλλα λόγια προσπαθούµε να προβλέψουµε τη βαθµολογία στην εξέταση µε βάση το επίπεδο άγχους. Μεταξύ άλλων πραγµάτων που επιτυγχάνει, η παλινδρόµηση είναι σε θέση να δηµιουργήσει κάποια εξίσωση παλινδρόµησης που υπολογίζει τον προβλεπόµενο βαθµό κάποιου µαθητή στην εξέταση µε βάση το επίπεδο άγχους του. Η εξίσωση παλινδρόµησης ακολουθεί το µοντέλο της γενικής εξίσωσης που σχεδιάστηκε να προβλέπει την πραγµατική ή αληθή βαθµολογία του µαθητή. Η εξίσωση για την αληθή βαθµολογία των µαθητών έχει ως εξής:

exam(αληθής) = κάποια σταθερά + κάποιος συντελεστής x anxiety + υπόλοιπο

∆ηλαδή, η πραγµατική βαθµολογία στην εξέταση (exam) ισούται µε µια σταθερά συν κάποιο σταθµικό αριθµό (συντελεστή) επί το βαθµό του άγχους (anxiety) συν το υπόλοιπο. Το υπόλοιπο συµπεριλαµβάνεται για να τονιστεί ότι οι προβλεπόµενες τιµές στις κοινωνικές επιστήµες σχεδόν ποτέ δεν είναι ακριβώς σωστές και ότι προκειµένου να έχουµε την πραγµατική τιµή απαιτείται ο συνυπολογισµός ενός όρου που προσαρµόζει τη διαφορά ανάµεσα στην αναµενόµενη και την πραγµατική βαθµολογία. Η διαφορά αυτή καλείται υπόλοιπο. Για παράδειγµα, η εξίσωση που βασίζεται στα δεδοµένα µας (µε τη σταθερά και τους συντελεστές να προκύπτουν από τη διαδικασία της παλινδρόµησης) έχει ως εξής:

exam(πραγµατική) = 64,247 + 2,818(anxiety) + υπόλοιπο

Για να παρουσιάσουµε τη χρήση της εξίσωσης, θα θέσουµε την τιµή του άγχους για τον µαθητή #24, ο οποίος έλαβε 6,5 στην κλίµακα µε την οποία µετράµε το άγχος.

exam(πραγµατική) = 64,247 + 2,818(6,5) + υπόλοιπο

exam(πραγµατική) = 82,56 + υπόλοιπο

Το 82,56 είναι η αναµενόµενη βαθµολογία για το µαθητή µε βάση το 6,5 που πήρε στην κλίµακα άγχους. Ξέρουµε ότι ο πραγµατικός βαθµός του στην εξέταση ήταν 94. Μπορούµε τώρα να καθορίσουµε την τιµή του υπολοίπου (πόσο µακριά ήταν η πραγµατική από την αναµενόµενη τιµή), αλλά µπορούµε να το κάνουµε µόνον αφού µάθουµε την πραγµατική τιµή της εξαρτηµένης µεταβλητής (η exam σ’ αυτή την περίπτωση). Το υπόλοιπο είναι απλώς η πραγµατική τιµή µείον την αναµενόµενη (94 – 82,56), ή 11,44. Η εξίσωση µε την καταχώρηση όλων των τιµών πια διαµορφώνεται ως εξής:

94 = 82,56 + 11,44 Πραγµατικός βαθµός

= Προβλεπόµενος βαθµός

+ Υπόλοιπο

Έχουµε συµπεριλάβει µια σύντοµη περιγραφή του όρου «υπόλοιπο» επειδή πρόκειται να τον συναντάτε πολύ συχνά όταν µελετάτε στατιστική, αλλά τώρα στρέφουµε την προσοχή µας στο θέµα των αναµενόµενων τιµών µε βάση κάποια υπολογισµένη εξίσωση παλινδρόµησης. Η εξίσωση παλινδρόµησης για την αναµενόµενη τιµή της exam είναι:

exam(αναµενόµενη) = 64.247 + 2.818(anxiety)

Page 120: Notes Spss

Για να παρουσιάσουµε τους υπολογισµούς ας θεωρήσουµε τους µαθητές 2, 43, και 72, οι οποίοι βαθµολογήθηκαν µε 1,5, 7,0, και 9,0 αντίστοιχα. Ο υπολογισµός των αναµενόµενων τιµών για καθέναν από τους τρεις µαθητές φαίνεται παρακάτω. Μετά την αναµενόµενη τιµή παρουσιάζεται ο πραγµατικός βαθµός που πήρε καθένας από τους τρεις µαθητές (εντός παρενθέσεως), για να δείξουµε πόσο ικανοποιητικά (ή µη ικανοποιητικά) µπόρεσε να προβλέψει τους πραγµατικούς βαθµούς η εξίσωση.

Μαθητής #2: exam(αναµενόµενη) = 64,247 + 2,818(1,5) = 68,47 (ο πραγµατικός βαθµός ήταν 52)

Μαθητής #43:

exam(αναµενόµενη) = 64,247 + 2,818(7,0) = 83,97 (ο πραγµατικός βαθµός ήταν 87)

Μαθητής #72:

exam(αναµενόµενη) = 64,247 + 2,818(9,0) = 89,61 (ο πραγµατικός βαθµός ήταν 71)

Παρατηρούµε ότι για τον µαθητή #2, η αναµενόµενη τιµή είναι υπερβολικά υψηλή (68,97 έναντι 52)· για τον µαθητή #43, η αναµενόµενη τιµή ήταν αρκετά κοντά µε τον πραγµατικό βαθµό (83,9 έναντι 87)· και για τον µαθητή #72, η αναµενόµενη τιµή ήταν επίσης υπερβολικά υψηλή (89,61 έναντι 71). Από τις περιορισµένες παρατηρήσεις µας θα µπορούσαµε να συµπεράνουµε ότι η ικανότητα της εξίσωσής µας να προβλέπει τιµές είναι αρκετά καλή για τιµές που βρίσκονται κοντά στο µέσο όρο, αλλά όχι εξίσου καλή για πιο ακραίες τιµές. Ή θα µπορούσαµε να συµπεράνουµε ότι υπάρχουν κι άλλοι παράγοντες πέρα από τη µέτρηση του άγχους που επηρεάζουν το βαθµό του µαθητή. Το θέµα των πολλαπλών παραγόντων που επηρεάζουν µια µεταβλητή καλείται πολλαπλή παλινδρόµηση και θα συζητηθεί στο επόµενο κεφάλαιο.

ΑΠΛΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ ΚΑΙ ΕΠΕΞΗΓΗΜΕΝΟ ΤΜΗΜΑ ΤΗΣ ∆ΙΑΚΥΜΑΝΣΗΣ

∆εν είµαστε στο έλεος της διαίσθησής µας για να καθορίσουµε αν µια εξίσωση παλινδρόµησης είναι η όχι σε θέση να κάνει ικανοποιητικές προβλέψεις. Το αποτέλεσµα που προέκυψε από την εντολή Regression (=παλινδρόµηση) υπολογίζει τέσσερις διαφορετικές τιµές που παρουσιάζουν ιδιαίτερο ενδιαφέρον για τον ερευνητή:

1. Το SPSS παράγει µια τιµή που µετράει τη δύναµη της σχέσης ανάµεσα στην εξαρτηµένη µεταβλητή (exam) και την ανεξάρτητη (anxiety). Αυτό το σκορ προσδιορίζεται µε το κεφαλαίο R και δεν είναι άλλος από την παλιά µας γνώριµη, τη διµεταβλητή συσχέτιση (r). Χρησιµοποιείται το κεφαλαίο R (αντί του r) επειδή η εντολή Regression χρησιµοποιείται συνήθως για να υπολογίσει πολλαπλές συσχετίσεις (δηλαδή τη δύναµη της σχέσης µεταξύ πολλών ανεξάρτητων µεταβλητών και µιας µόνης εξαρτηµένης µεταβλητής).

2. Μαζί µε τον υπολογισµό του R, το SPSS δίνει κάποια τιµή πιθανότητας (p) που σχετίζεται µε το R για να δείξει τη σηµαντικότητα της σχέσης. Ακόµη µια φορά, µια τιµή p < 0.05 ερµηνεύεται γενικά ως ενδεικτική µιας στατιστικά σηµαντικής συσχέτισης. Αν p > 0.05, η ισχύς της συσχέτισης ανάµεσα στις δύο µεταβλητές συνήθως δεν θεωρείται στατιστικά σηµαντική· ή η σχέση µεταξύ των δύο θεωρείται αδύναµη ή ανύπαρκτη.

3. Το R τετράγωνο (ή R2) είναι απλώς το τετράγωνο του R, αλλά έχει ξεχωριστή σηµασία. Η τιµή R2 είναι το ποσό της διακύµανσης σε µια µεταβλητή για το οποίο ευθύνεται (ή το οποίο εξηγείται από) κάποια άλλη µεταβλητή. Για τη σχέση ανάµεσα στις µεταβλητές anxiety και exam, το SPSS υπολόγισε τις τιµές του R = 0,48794 (p <0,0001) και του R2 = 0,23808. Η τιµή του R τετράγωνο δείχνει ότι για το 23,8% της διακύµανσης στη βαθµολογία της εξέτασης (exam)

Page 121: Notes Spss

ευθύνεται το επίπεδο του άγχους πριν την εξέταση (anxiety). Εδώ πρέπει να σηµειώσουµε τις σταθερές αντιρρήσεις: Με τη συσχέτιση να είστε προσεκτικοί στα συµπεράσµατα που βγάζετε σχετικά µε την αιτιότητα. Σ’ αυτή την περίπτωση η διεύθυνση της αιτιότητας είναι ασφαλές να υποτεθεί επειδή ο βαθµός σε µια εξέταση δεν µπορεί να επηρεάσει το άγχος του εξεταζόµενου πριν απ’ αυτή.

4. Το SPSS υπολογίζει τη σταθερά και το συντελεστή (ονοµάζονται τιµές B [B-values]) για την εξίσωση παλινδρόµησης. Όπως έχουµε ήδη σηµειώσει, η σταθερά και ο συντελεστής που υπολογίστηκαν για την εξίσωση παλινδρόµησης και ορίζουν τη σχέση ανάµεσα στις µεταβλητές anxiety και exam ήταν 64,247 και 2,818, αντίστοιχα.

ΕΛΕΓΧΟΣ ΓΙΑ ΜΙΑ ΜΗ ΓΡΑΜΜΙΚΗ ΣΧΕΣΗ

Οι περισσότεροι έξυπνοι άνθρωποι θα θεωρούσαν ανοησία να σκεφτούµε ότι η ύπαρξη µεγαλύτερου άγχους πριν την εξέταση θα έχει σαν αποτέλεσµα υψηλότερο βαθµό στην εξέταση. Μια ευρέως αποδεκτή θέση είναι ότι τα πολύ χαµηλά επίπεδα άγχους θα έχουν σαν αποτέλεσµα χαµηλές βαθµολογίες (λόγω έλλειψης κινήτρου) και ότι καθώς αυξάνουν, αυξάνει επίσης και το κίνητρο για υψηλή βαθµολογία, µε αποτέλεσµα αυτή να επιτυγχάνεται. Πάντως, υπάρχει ένα σηµείο όπου η αύξηση του άγχους λειτουργεί σε βάρος της απόδοσης· και στο αποκορύφωµα του άγχους θα οδηγούµασταν και πάλι σε µείωση της απόδοσης. Η ανάλυση παλινδρόµησης (είτε απλή είτε πολλαπλή) µετράει κάποια γραµµική σχέση ανάµεσα στην ανεξάρτητη(ες) µεταβλητή(ές) και την εξαρτηµένη µεταβλητή. Στα υποθετικά δεδοµένα που παρουσιάσαµε νωρίτερα υπάρχει µια αρκετά ισχυρή γραµµική σχέση ανάµεσα στο άγχος και το βαθµό της εξέτασης (R =0,484, p < 0,0001). Αλλά ίσως η εξίσωση παλινδρόµησης να µπορούσε να δώσει ακριβέστερες προβλεπόµενες τιµές (µε αποτέλεσµα να ταιριάζει καλύτερα στα δεδοµένα) αν χρησιµοποιούνταν κάποια δευτεροβάθµια εξίσωση που να συµπεριλαµβάνει τον όρο άγχος στο τετράγωνο (anxiety2).

Συνήθως πριν κάνει κανείς έλεγχο για κάποια µη γραµµική τάση, πρέπει να υπάρχουν ενδείξεις (θεωρητικές ή βάσει υπολογισµών) ότι υπάρχει τέτοια σχέση. Ειλικρινά στις κοινωνικές επιστήµες µη γραµµικές τάσεις υπάρχουν σε περιορισµένο αριθµό περιπτώσεων αλλά όταν υπάρχουν µπορεί να είναι κρίσιµες στην κατανόηση των δεδοµένων. Για να κάνουµε τη σχετική παρουσίαση δηµιουργούµε το διάγραµµα διασποράς ανάµεσα στην εξέταση και το άγχος.

Το γράφηµα (παρακάτω) δείχνει τους βαθµούς στην εξέταση (exam) στο κάθετο άξονα (η κλίµακα είναι από 40 έως 110), και το άγχος (anxiety) στον οριζόντιο άξονα µε κλίµακα από το 0 ως το 10. Η αρχική οπτική επιθεώρηση αποκαλύπτει κάτι που µοιάζει µε µη γραµµική τάση. Για τιµές µέτριου άγχους οι βαθµοί στην εξέταση είναι οι µέγιστοι, και για τις ακραίες τιµές άγχους τείνουν να είναι χαµηλότεροι. Κανείς πρέπει να είναι προσεκτικός όταν επιχειρεί να διαβάσει ένα διάγραµµα διασποράς. Μπορεί να φαίνεται ότι υπάρχει κάποια σχέση, αλλά όταν ελεγχθεί να µην είναι στατιστικά σηµαντική. Πιο συχνά η οπτική εξέταση από µόνη της δεν αποκαλύπτει µια υπάρχουσα µη γραµµική σχέση αλλά ο στατιστικός έλεγχος το κάνει. Όταν διερευνούµε τη σχέση δύο µεταβλητών η εντολή Regression είναι σε θέση να αποκαλύψει αν υπάρχει κάποια σηµαντική γραµµική τάση, κάποια σηµαντική µη γραµµική τάση, σηµαντικές γραµµικές και µη γραµµικές τάσεις, ή τίποτα.

Page 122: Notes Spss

Οθόνη 5.1

Υποθετικό ∆ιάγραµµα ∆ιασποράς που παρουσιάζει µια καµπυλό-γραµµη τάση

Μια απλή διαδικασία που προσφέρει το SPSS στο πλαίσιο της εντολής Regression είναι ένας γρήγορος έλεγχος για γραµµικές ή µη γραµµικές τάσεις. Ορίζετε την εξαρτηµένη µεταβλητή (exam), την ανεξάρτητη µεταβλητή (anxiety), στη συνέχεια από το πλαίσιο διαλόγου που προκύπτει, επιλέγετε Linear (=γραµµικός) και Quadratic (=δευτεροβάθµιος). Ένα κλικ στο ΟΚ θα σας δώσει ένα αποτέλεσµα δυο γραµµών που δείχνει αν υπάρχουν γραµµικές ή και µη γραµµικές τάσεις. Οι τιµές Β συµπεριλαµβάνονται επίσης έτσι ώστε να είναι δυνατόν να γραφτούν οι εξισώσεις για την πρόβλεψη τιµών είτε για γραµµικές είτε για µη γραµµικές σχέσεις. Αυτή η διαδικασία δηµιουργεί επίσης ένα γράφηµα που δείχνει το διάγραµµα διασποράς (όλα τα σηµεία που αντιστοιχούν σε παρατηρήσεις είναι συνδεδεµένα), τη γραµµή της γραµµικής παλινδρόµησης (η ευθεία) και τη γραµµή της µη γραµµικής παλινδρόµησης (η καµπύλη). Προσέξτε την οµοιότητα ανάµεσα στα δύο διαγράµµατα στις Οθόνες 5.1 και 5.2. Προσέξτε επίσης ότι η σταθερά και οι συντελεστές στις εξισώσεις χρησιµοποιούν τιµές από τις δύο γραµµές των αποτελεσµάτων.

Page 123: Notes Spss

Οθόνη 5.2

Υποθετικό ∆ιάγραµµα ∆ιασποράς που παρουσιάζει µια γραµµική και µια καµπυλόγραµµη τάση

EXAM

ANXIETY

1086420

110

100

90

80

70

60

50

40

Observed

Linear

Quadratic

Dependent Mth Rsq d.f. F Sigf b0 b1 b2 EXAM LIN ,238 71 22,19 ,000 64,2470 2,8178 EXAM QUA ,641 70 62,52 ,000 30,3771 18,9256 1,5212 Ακολουθούν οι εξισώσεις παλινδρόµησης της γραµµικής και της µη γραµµικής παλινδρόµησης:

Γραµµική Εξίσωση (η ευθεία γραµµή): exam(αναµ..) = 64,247 + 2,82(anxiety)

Μη Γραµµική Εξίσωση (η καµπύλη γραµµή): exam(αναµ.) = 30,38 + 18,93(anxiety) + -1,52(anxiety)2

Παρατηρήστε ότι στα παραπάνω αποτελέσµατα η τιµή του R2 για τη γραµµική εξίσωση δείχνει ότι το άγχος εξηγεί το 23,8% της απόδοσης στην εξέταση ενώ η τιµή του R2 για τη µη γραµµική εξίσωση (όπου το αποτέλεσµα επηρεάζεται και από τη γραµµική και από τη µη γραµµική τάση) δείχνει ότι το 64,1% της διακύµανσης της εξέτασης εξηγείται από το άγχος και το τετράγωνο του άγχους. Το 0.000 κάτω από τη φράση Sigf, και για τη γραµµική και για τη µη γραµµική εξίσωση δείχνει ότι και οι δύο τάσεις είναι στατιστικά σηµαντικές.

Θα θέλαµε να δούµε αν η δευτεροβάθµια εξίσωση προβλέπει µε µεγαλύτερη επιτυχία τους πραγµατικούς βαθµούς απ’ ό,τι η γραµµική. Γι’ αυτό θα αντικαταστήσουµε τις τιµές της µεταβλητής anxiety για τους ίδιους µαθητές (νούµερο 2, 43, και 72) που χρησιµοποιήσαµε και στη γραµµική εξίσωση:

Μαθητής #2: exam(αναµ.) = 30,38 +18,93(1,5) + -1,52(1,5)2 =

55,31 (ο πραγµατικός βαθµός ήταν 52)

Page 124: Notes Spss

Μαθητής #43:

exam(αναµ.) = 30,38 +18,93(7,0) + -1,52(7,0)2 = 88,30

(ο πραγµατικός βαθµός ήταν 87)

Μαθητής #72:

exam(αναµ.) = 30,38 +18,93(9,0) + -1,52(9,0)2 = 77,49

(ο πραγµατικός βαθµός ήταν 71)

Μια γρήγορη µατιά στα αποτελέσµατα της γραµµικής εξίσωσης δείχνει τη σηµαντική υπεροχή της προβλεπτικής ικανότητας της δευτεροβάθµιας εξίσωσης. Προσέξτε τον παρακάτω πίνακα.

Αριθµός Μαθητή Πραγµατική Τιµή του Βαθµού

Αναµενόµενη Γραµµική Τιµή

Αναµενόµενη Μη Γραµµική Τιµή

2 52 68,74 55,31 43 87 83,97 88,30 72 71 89,61 77,49

Βήµα Προς Βήµα

Απλή Γραµµική και Μη Γραµµική Παλινδρόµηση

Από το µενού Analyze επιλέξτε την εντολή Regression και την υποεντολή Linear. Σ’ αυτό το σηµείο ανοίγει ένα νέο παράθυρο (Οθόνη 6.3) που σας επιτρέπει να κάνετε ανάλυση παλινδρόµησης. Επειδή αυτό το πλαίσιο χρησιµοποιείται πολύ συχνότερα για την πολλαπλή ανάλυση παλινδρόµησης απ’ ό,τι για την απλή γραµµική παλινδρόµηση υπάρχουν πολλές διαθέσιµες επιλογές που δεν θα συζητήσουµε µέχρι το επόµενο κεφάλαιο. Η λίστα στα αριστερά θα περιέχει αρχικά µόνον δύο µεταβλητές, τις anxiety και exam. Η διαδικασία είναι να επιλέξετε την exam και να την επικολλήσετε στο πλαίσιο Dependent, να επιλέξετε την anxiety και να την επικολλήσετε στο πλαίσιο Independent(s), και στη συνέχεια να κάνετε κλικ στο πλήκτρο OK. Το πρόγραµµα θα τρέξει τότε και θα επιστρέψει σαν αποτελέσµατα τις τιµές R, R2, F και τους ελέγχους σηµαντικότητας, τις τιµές Β που δίνουν τις σταθερές και τους συντελεστές για την εξίσωση παλινδρόµησης, και τιµές Beta (β) για να δείξει την ισχύ της σχέσης ανάµεσα στις δύο µεταβλητές. Κάποιοι από τους όρους µπορεί να σας είναι άγνωστοι αλλά θα εξηγηθούν στην ενότητα των αποτελεσµάτων.

Page 125: Notes Spss

Οθόνη 5.3

To αρχικό παράθυρο της γραµµικής παλινδρόµησης

ΑΠΟΤΕΛΕΣΜΑΤΑ

Απλή Γραµµική και Μη Γραµµική Ανάλυση Παλινδρόµησης

Ακολουθούν τα αποτελέσµατα της ανάλυσης που ήδη παρουσιάσαµε.

Model Summaryb

,488a ,238 ,227 12,215Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), ANXIETYa.

Dependent Variable: EXAMb.

ANOVAb

3310,476 1 3310,476 22,186 ,000a

10594,209 71 149,21413904,685 72

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), ANXIETYa.

Dependent Variable: EXAMb.

Page 126: Notes Spss

Coefficientsa

64,247 3,602 17,834 ,0002,818 ,598 ,488 4,710 ,000

(Constant)ANXIETY

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: EXAMa.

Αυτά τα αποτελέσµατα δείχνουν ότι υπάρχει σηµαντική γραµµική σχέση ανάµεσα στην απόδοση στην εξέταση και στο άγχος, τέτοια που ένα υψηλότερο επίπεδο άγχους οδηγεί σε υψηλότερους βαθµούς. Η ειδική σηµασία αυτών των αποτελεσµάτων συνοψίζεται στους ορισµούς που ακολουθούν.

Ορισµός/ Περιγραφή R Από τη στιγµή που υπάρχει µόνο µία ανεξάρτητη µεταβλητή,

αυτός ο αριθµός είναι η διµεταβλητή συσχέτιση (r) µεταξύ των µεταβλητών exam και anxiety.

R SQUARE (=R ΤΕΤΡΑΓΩΝΟ)

Η τιµή του R τετράγωνο προσδιορίζει το κοµµάτι της διασποράς στη µεταβλητή exam για το οποίο ευθύνεται η ANXIETY. Σ’ αυτή την περίπτωση το 23,8% της διακύµανσης στην exam εξηγείται από την anxiety.

ADJUSTED R SQUARE (=ΠΡΟΣΑΡΜΟΣΜΕΝΟΣ R ΤΕΤΡΑΓΩΝΟ)

Ο R ΤΕΤΡΑΓΩΝΟ είναι µια ακριβής εκτίµηση για το συγκεκριµένο δείγµα αλλά θεωρείται αισιόδοξη εκτίµηση για τον πληθυσµό. Ο προσαρµοσµένος R ΤΕΤΡΑΓΩΝΟ θεωρείται καλύτερη εκτίµηση για τον πληθυσµό.

STANDARD ERROR (= ΤΥΠΙΚΟ ΣΦΑΛΜΑ)

Η τυπική απόκλιση των αναµενόµενων τιµών για την εξαρτηµένη µεταβλητή, την exam.

REGRESSION (=ΠΑΛΙΝ∆ΡΟΜΗΣΗ)

Στατιστικά µέτρα που σχετίζονται µε την εξήγηση τµήµατος της διακύµανσης.

RESIDUAL (=ΥΠΟΛΟΙΠΟ)

Στατιστικά µέτρα που ασχολούνται µε το ανεξήγητο τµήµα της διακύµανσης.

DF (=ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ)

Βαθµοί Ελευθερίας: Για την παλινδρόµηση, ο αριθµός των ανεξάρτητων µεταβλητών (µία, σ’ αυτή την περίπτωση). Για το υπόλοιπο, ο αριθµός των παρατηρήσεων (73) µείον τον αριθµό των ανεξάρτητων µεταβλητών (1), µείον 1: (73 – 1 – 1 = 71).

SUM ΟF SQUARES (=ΑΘΡΟΙΣΜΑ ΤΕΤΡΑΓΩΝΩΝ)

Για την παλινδρόµηση, αυτό είναι το µεταξύ των οµάδων άθροισµα τετραγώνων· για το υπόλοιπο, το εντός οµάδας άθροισµα τετραγώνων. Προσέξτε ότι σ’ αυτή την περίπτωση η ανεξήγητη διακύµανση είναι περισσότερη από αυτήν που εξηγείται, µια πραγµατικότητα που αντανακλάται και στην τιµή R2.

MEAN SQUARE (=ΜΕΣΟ ΤΕΤΡΑΓΩΝΟ)

Το άθροισµα των τετραγώνων διαιρεµένο µε τους βαθµούς ελευθερίας.

F Το µέσο τετράγωνο της παλινδρόµησης διαιρεµένο µε το µέσο τετράγωνο των υπολοίπων.

SIGN F (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ F)

Η πιθανότητα αυτό το αποτέλεσµα να προέκυψε τυχαία.

B Ο συντελεστής και η σταθερά για την εξίσωση γραµµικής

Page 127: Notes Spss

παλινδρόµησης: exam(αναµενόµενη.) = 64.247 + 2.818(anxiety)

STD ERROR (=ΤΥΠΙΚΟ ΣΦΑΛΜΑ)

Τυπικό Σφάλµα του Β: Ένα µέτρο για τη σταθερότητα ή το δειγµατοληπτικό σφάλµα των τιµών Β. Είναι η τυπική απόκλιση

BETA Οι τυποποιηµένοι συντελεστές παλινδρόµησης. Αυτή είναι η τιµή Β για τις τυποποιηµένες τιµές (τιµές z) της µεταβλητής anxiety. Αυτή η τιµή θα κυµαίνεται πάντα µεταξύ ± 1.0 στις γραµµικές σχέσεις. Για τις µη γραµµικές σχέσεις κάποιες φορές θα ξεπερνάει αυτό το εύρος.

T Το Β διαιρεµένο µε το τυπικό σφάλµα του Β. SIGNIF t (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ t)

Η πιθανότητα αυτό το αποτέλεσµα να προέκυψε τυχαία.

Page 128: Notes Spss

78

ΑΝΑΛΥΣΗ ΠΟΛΛΑΠΛΗΣ

ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ

Ανάλυση Πολλαπλής Παλινδρόµησης

Η Εξίσωση της Παλινδρόµησης

Το Τµήµα της ∆ιακύµανσης που Εξηγείται

Μη γραµµικές Τάσεις και Κατασκευή του Μοντέλου

Βήµα Προς Βήµα

Μέθοδοι για Επιλογή Μεταβλητής

Αποτελέσµατα

Αλλαγές καθώς Προστίθεται κάθε Νέα Μεταβλητή

Ορισµοί Όρων

8 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 16 του βιβλίου των George και Mallery

Page 129: Notes Spss

Η πολλαπλή παλινδρόµηση αποτελεί φυσική επέκταση της απλής γραµµικής παλινδρόµησης που παρουσιάζεται στο Κεφάλαιο 6. Στην απλή παλινδρόµηση µετρήσαµε το κοµµάτι της επίδρασης που έχει µια µεταβλητή (η ανεξάρτητη ή µεταβλητή πρόβλεψης) πάνω σε µια δεύτερη µεταβλητή (την εξαρτηµένη ή κριτήριο). Υπολογίσαµε επίσης τη σταθερά και το συντελεστή για κάποια εξίσωση παλινδρόµησης, σχεδιασµένης να προβλέπει τις τιµές της εξαρτηµένης µεταβλητής µε βάση τις τιµές της ανεξάρτητης. Ενώ η απλή παλινδρόµηση δείχνει την επίδραση µιας µεταβλητής πάνω σε µια άλλη, η ανάλυση πολλαπλής παλινδρόµησης δείχνει την επίδραση δύο ή περισσότερων µεταβλητών σε µια συγκεκριµένη εξαρτηµένη µεταβλητή.

Ένας άλλος τρόπος για να δούµε την ανάλυση παλινδρόµησης (απλή ή πολλαπλή) είναι από την άποψη της κλίσης – τοµής µε τον άξονα Υ µιας εξίσωσης. Όταν υπολογίζεται µια απλή συσχέτιση µεταξύ δύο µεταβλητών, µπορεί να ζητείται η τοµή µε τον άξονα Υ και η κλίση της γραµµής παλινδρόµησης (ή η γραµµή που ταιριάζει καλύτερα). Αυτή η γραµµή βασίζεται στην εξίσωση παλινδρόµησης που αναφέραµε πιο πάνω µε την τοµή του Υ να καθορίζεται από την τιµή της σταθεράς και την κλίση να καθορίζεται από τον συντελεστή της ανεξάρτητης µεταβλητής. Εδώ περιγράφουµε µια εξίσωση απλής παλινδρόµησης σαν όχηµα για να παρουσιάσουµε την ανάλυση πολλαπλής παλινδρόµησης. Για να βοηθήσουµε σ’ αυτή τη διαδικασία παρουσιάζουµε ένα νέο παράδειγµα που βασίζεται σ’ ένα αρχείο που ονοµάζεται helping1.sav. Αυτό το αρχείο δεδοµένων σχετίζεται µε κάποια µελέτη συµπεριφοράς κατά την παροχή βοήθειας· είναι πραγµατικά δεδοµένα που προέκυψαν από δείγµα 81 ερωτώµενων.

Η ΕΞΙΣΩΣΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ

Σ’ αυτό το κεφάλαιο παρουσιάζουµε το νέο σύνολο δεδοµένων που αναφέραµε παραπάνω. ∆ύο από τις µεταβλητές που χρησιµοποιούνται για την παρουσίαση της απλής παλινδρόµησης είναι η zhelp (ένα µέτρο του συνολικού χρόνου που ξοδεύεται για παροχή βοήθειας σ’ ένα φίλο που αντιµετωπίζει κάποιο πρόβληµα, µετράται σε τιµές z) και η sympathy (το µέγεθος της συµπάθειας που αισθάνεται αυτός που βοηθάει απέναντι στο πρόβληµα του φίλου του, µετράται σε κλίµακα από λίγο(1) έως πολύ (7)). Παρότι η συσχέτιση είναι συνήθως διπλής κατεύθυνσης, σ’ αυτή την περίπτωση η zhelp έχει οριστεί ως η εξαρτηµένη µεταβλητή (δηλαδή η συµπάθεια κάποιου επηρεάζει το µέγεθος της βοήθειας που παρέχει παρά το µέγεθος της βοήθειας που παρέχει κάποιος επηρεάζει τη συµπάθεια που αισθάνεται). Υπολογίστηκε µια σηµαντική συσχέτιση (r =0,46, p <0,0001), η οποία δείχνει µια ουσιώδη σχέση ανάµεσα στο µέγεθος της συµπάθειας που αισθάνεται κάποιος και το µέγεθος της βοήθειας που παρέχει. Επιπλέον υπολογίστηκαν η τιµή στην οποία η εξίσωση τέµνει τον άξονα Υ (-1,892) και η κλίση (0,498) για την εξίσωση παλινδρόµησης που δείχνει τη σχέση µεταξύ των δύο µεταβλητών. Απ’ αυτά τα νούµερα µπορούµε να δηµιουργήσουµε τον τύπο που καθορίζει την αναµενόµενη τιµή της zhelp:

zhelp(αναµενόµενη.) = -1,892 + 0,498(sympathy)

Αν κάποιος βαθµολογήθηκε µε 5,6 στην κλίµακα της συµπάθειας (sympathy), η αναµενόµενη τιµή γι’ αυτόν για τη µεταβλητή zhelp θα είναι 0,897. Μ’ άλλα λόγια, αν κάποιος βαθµολογήθηκε σχετικά υψηλά όσον αφορά τη συµπάθεια (5,6 σ’ αυτή την περίπτωση), αναµένεται ότι θα παρέχει αρκετά µεγάλη βοήθεια (µια τιµή z ίση µε 0,897 δείχνει σχεδόν µία τυπική απόκλιση µεγαλύτερη από το µέσο µέγεθος παρεχόµενης βοήθειας). Η παρακάτω αλληλουχία παρουσιάζει τον υπολογισµό αυτού του αριθµού.

Page 130: Notes Spss

zhelp(αναµενόµενη)= -1,892 + 0,498(5,6) zhelp(αναµενόµενη)= -1,892 + 2,789 zhelp(αναµενόµενη)= 0,897

Η ανάλυση πολλαπλής παλινδρόµησης είναι παρόµοια αλλά επιτρέπει σε περισσότερες από µία ανεξάρτητες µεταβλητές να επιδρούν πάνω στην εξαρτηµένη.

Σ’ αυτό το παράδειγµα προέκυψαν άλλα δύο µέτρα σηµαντικά συσχετισµένα µε την zhelp: η µεταβλητή anger [αισθήµατα θυµού ή ενόχλησης εκείνου που παρέχει τη βοήθεια προς τον φίλο που βρίσκεται σε ανάγκη, µετρηµένα σε κλίµακα από κανένα(1) έως πολλά(7)], και η µεταβλητή efficacy (η επάρκεια ή η πεποίθηση εκείνου που παρέχει την βοήθεια ότι διαθέτει τους απαραίτητους πόρους για να βοηθήσει το φίλο του, σε κλίµακα από µικρή(1) έως µεγάλη(7)). Η ανάλυση πολλαπλής παλινδρόµησης έδωσε τις ακόλουθες τιµές Β (το Β µπορεί σε γενικές γραµµές να ερµηνευτεί ως η κλίση ή η σταθµική σταθερά για τη µεταβλητή που µας ενδιαφέρει): Β(sympathy) = 0,4941, Β(anger) = 0,4125, και σταθερά (σηµείο τοµής µε τον άξονα Υ) = -4,3078. Απ’ αυτά τα νούµερα µπορεί να δηµιουργηθεί µια νέα εξίσωση για τον καθορισµό της αναµενόµενης τιµής της µεταβλητής zhelp:

zhelp(αναµενόµενη.) = -4,3078 + 0,4941(sympathy) + 0,2836(anger) + 0,4125(efficacy)

Βάζοντας νούµερα από µια πραγµατική παρατήρηση, την #9 σ’ αυτή την περίπτωση:

zhelp(αναµενόµενη.) = -4,3078 + 0,4941(3,5) + 0,2836(1,0) + 0,4125(2,9) = -1,09

Το αποτέλεσµα υποδηλώνει ότι ένα άτοµο που έλαβε µέτρια βαθµολογία στη συµπάθεια (3,5), χαµηλή στο θυµό (1,0) και χαµηλή στη επάρκεια (2,9) θα αναµένεται να παρέχει µικρή βοήθεια (µια τιµή z ίση µε -1,09 είναι περισσότερο από µία τυπική απόκλιση κάτω από το µέσο όρο). Η πραγµατική τιµή της zhelp για τον ερωτώµενο #9 ήταν -0,92. Η πρόβλεψη σ’ αυτή την περίπτωση ήταν αρκετά κοντά στην ακρίβεια.

Μια θετική τιµή για έναν από τους δύο συντελεστές Β δείχνει ότι µια υψηλότερη τιµή για την αντίστοιχη µεταβλητή θα αυξήσει την τιµή της εξαρτηµένης µεταβλητής (π.χ. η µεγαλύτερη συµπάθεια οδηγεί σε παροχή µεγαλύτερης βοήθειας). Ένας αρνητικός συντελεστής σε µια µεταβλητή πρόβλεψης θα µείωνε την τιµή της εξαρτηµένης µεταβλητής (η παραπάνω συνάρτηση δεν το παρουσιάζει αυτό· ένα παράδειγµα θα ήταν ότι µεγαλύτερος κυνισµός θα οδηγούσε σε µικρότερη βοήθεια). Όσο µεγαλύτερη είναι η τιµή Β (απόλυτες τιµές), τόσο µεγαλύτερη η επίδραση στην τιµή της εξαρτηµένης µεταβλητής. Όσο µικρότερη είναι η τιµή Β (απόλυτες τιµές), τόσο µικρότερη επίδραση έχει αυτή στην εξαρτηµένη µεταβλητή.

Πάντως, συνήθως οι τιµές Β δεν µπορούν να συγκριθούν άµεσα επειδή διαφορετικές µεταβλητές µπορεί να µετρώνται σε διαφορετικές κλίµακες ή να έχουν διαφορετικά µετρικά. Για να ξεπεράσουν αυτή τη δυσκολία οι στατιστικοί έχουν δηµιουργήσει µια τυποποιηµένη τιµή που ονοµάζεται Beta (β), η οποία επιτρέπει άµεσες συγκρίσεις της σχετικής ισχύος των σχέσεων µεταξύ µεταβλητών. Το β κυµαίνεται ανάµεσα στο ± 1.0 και είναι µια µερική συσχέτιση. Μερική συσχέτιση είναι η συσχέτιση µεταξύ δύο µεταβλητών, στις οποίες µοιράζεται η επίδραση όλων των υπολοίπων µεταβλητών της εξίσωσης. Στο πλαίσιο αυτού του παραδείγµατος, η Beta ανάµεσα στις µεταβλητές anger και zhelp είναι η συσχέτιση µεταξύ των δύο µεταβλητών αφού έχουν ήδη καταχωρηθεί οι sympathy και efficacy κι έχει ήδη υπολογιστεί η µεταβλητότητα που οφείλεται στη συµπάθεια και τη επάρκεια των ερωτώµενων. Έτσι η Beta είναι η µοναδική συνεισφορά µιας µεταβλητής στην ερµηνεία µιας άλλης. Το βάρος Beta, συχνά καλείται τυποποιηµένος συντελεστής παλινδρόµησης, δεν είναι απλώς µια σηµαντική έννοια στην παλινδρόµηση αλλά αποτελεί και στοιχείο που χρησιµοποιείται στην µοντελοποίηση της δοµικής εξίσωσης (structural equation modeling) για να

Page 131: Notes Spss

παρουσιάσει το µέγεθος και τη διεύθυνση των σχέσεων ανάµεσα σε όλες τις µεταβλητές ενός µοντέλου. Η µοντελοποίηση δοµικής εξίσωσης (structural equation modeling) γίνεται όλο και πιο δηµοφιλής στην έρευνα των κοινωνικών επιστηµών αλλά προϋποθέτει την αγορά ενός πρόσθετου κοµµατιού του SPSS.

Στην προηγούµενη εξίσωση βρίσκουµε, όπως αναµενόταν, ότι υψηλότεροι βαθµοί στις µεταβλητές sympathy και efficacy σχετίζονται µε υψηλότερες τιµές zhelp. Αντίθετα µε τη διαίσθηση βρίσκουµε ότι περισσότερος θυµός (anger) επίσης σχετίζεται θετικά µε την zhelp. Ο λόγος για τον οποίο ισχύει αυτό αποτελεί θέµα συζήτησης και ερµηνείας του ερευνητή. Όταν προκύπτει ένα µη αναµενόµενο αποτέλεσµα, ο ερευνητής θα πρέπει να ελέγξει ξανά τα δεδοµένα για να διασφαλίσει ότι οι µεταβλητές έχουν κωδικοποιηθεί και καταχωρηθεί σωστά. Το SPSS δεν δίνει κανένα στοιχείο σχετικά µε το γιατί οι αναλύσεις έχουν τα αποτελέσµατα που έχουν.

ΠΑΛΙΝ∆ΡΟΜΗΣΗ ΚΑΙ R2: ΤΟ ΕΠΕΞΗΓΗΜΕΝΟ ΜΕΡΟΣ ΤΗΣ ∆ΙΑΚΥΜΑΝΣΗΣ

Στην ανάλυση πολλαπλής παλινδρόµησης µπορεί να χρησιµοποιηθεί οποιοσδήποτε αριθµός µεταβλητών πρόβλεψης, αλλά οι πολλές µεταβλητές δεν είναι απαραίτητα το ιδανικό. Είναι σηµαντικό να βρεθούν µεταβλητές που επηρεάζουν σηµαντικά την εξαρτηµένη µεταβλητή. Το SPSS έχει διαδικασίες, µε τις οποίες µόνον οι σηµαντικές µεταβλητές πρόβλεψης θα συµπεριληφθούν στην εξίσωση παλινδρόµησης. Με τη µέθοδο καταχώρησης Forward (=προς τα µπρος) ορίζονται µία εξαρτηµένη µεταβλητή και οποιοσδήποτε αριθµός ανεξάρτητων µεταβλητών. Η διαδικασία Regression (=παλινδρόµηση) θα υπολογίσει ποια ανεξάρτητη µεταβλητή έχει την υψηλότερη διµεταβλητή συσχέτιση µε την εξαρτηµένη µεταβλητή. Το SPSS θα δηµιουργήσει στη συνέχεια την εξίσωση παλινδρόµησης µε τη µία επιλεγµένη ανεξάρτητη µεταβλητή. Αυτό σηµαίνει ότι µετά το πρώτο βήµα έχει υπολογιστεί µια συνάρτηση παλινδρόµησης που συµπεριλαµβάνει την προσδιορισµένη εξαρτηµένη µεταβλητή και µόνο µία ανεξάρτητη µεταβλητή. Στη συνέχεια η διαδικασία Regression θα καταχωρήσει τη δεύτερη µεταβλητή, η οποία εξηγεί το µεγαλύτερο τµήµα της επιπλέον διακύµανσης. Αυτή η δεύτερη µεταβλητή θα συµπεριληφθεί µόνον αν εξηγεί ένα σηµαντικό τµήµα της επιπλέον διακύµανσης. Μετά απ’ αυτό το δεύτερο βήµα η εξίσωση παλινδρόµησης έχει την ίδια εξαρτηµένη µεταβλητή αλλά τώρα έχει δύο µεταβλητές πρόβλεψης. Στη συνέχεια, αν υπάρχει κάποια τρίτη µεταβλητή που εξηγεί σηµαντικά περισσότερη διακύµανση, θα συµπεριληφθεί επίσης στην εξίσωση παλινδρόµησης. Αυτή η διαδικασία θα συνεχιστεί µέχρι να µην υπάρχουν άλλες µεταβλητές που να εξηγούν σηµαντικά επιπλέον διακύµανση. Εξ’ ορισµού η διαδικασία Regression θα σταµατήσει να προσθέτει νέες µεταβλητές όταν η τιµή p που σχετίζεται µε τον συνυπολογισµό µιας επιπλέον µεταβλητής αυξάνει πέρα από το επίπεδο σηµαντικότητας 0,05. Ο ερευνητής πάντως µπορεί να ορίσει διαφορετικό επίπεδο σηµαντικότητας σαν κριτήριο καταχώρησης στην εξίσωση.

Το µέτρο της ισχύς της σχέσης ανάµεσα στις ανεξάρτητες µεταβλητές (προσέξτε τον πληθυντικό) και την εξαρτηµένη µεταβλητή ορίζεται µ’ ένα κεφαλαίο R και συνήθως αναφερόµαστε σ’ αυτό ως πολλαπλό R. Αυτός ο αριθµός στο τετράγωνο (R2) δίνει µια τιµή που αντιπροσωπεύει το ποσοστό της διακύµανσης στην εξαρτηµένη µεταβλητή που εξηγείται από τις ανεξάρτητες. Στην ανάλυση παλινδρόµησης που δηµιούργησε την εξίσωση παλινδρόµησης που παρουσιάζεται παραπάνω, η τιµή του πολλαπλού R ήταν 0,616 και του R2 ήταν 0,380. Αυτό δείχνει ότι για το 38% της διακύµανσης στην zhelp ευθύνονται οι µεταβλητές sympathy, anger και efficacy. ∆είτε την ενότητα των αποτελεσµάτων για επιπλέον πληροφορίες σχετικά µε το πολλαπλό R.

Page 132: Notes Spss

ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

Ανάλυση Πολλαπλής Παλινδρόµησης

Από το µενού Analyze επιλέγετε την εντολή Regression και στη συνέχεια την υποεντολή Linear.

Η οθόνη που εµφανίζεται σ’ αυτό το σηµείο (Οθόνη 6.1, παρακάτω) είναι ίδια µε το πλαίσιο διαλόγου που δείξαµε (Οθόνη 5.3) στο προηγούµενο κεφάλαιο. Το αναπαράγουµε εδώ για λόγους οπτικής αναφοράς και για να δείξουµε τη νέα λίστα µε τις µεταβλητές του αρχείου helping1.sav.

Οθόνη 7.1

To αρχικό παράθυρο της γραµµικής παλινδρόµησης

Στο επάνω µέρος του παραθύρου βρίσκεται το πλαίσιο Dependent (=εξαρτηµένη) που διαθέτει χώρο µόνο για µία εξαρτηµένη µεταβλητή. Στο µέσο της οθόνης βρίσκεται το πλαίσιο Independent(s) όπου µπορούν να επικολληθούν µία ή περισσότερες προσεκτικά επιλεγµένες µεταβλητές. ∆εν υπάρχουν περιορισµοί του SPSS σχετικά µε τον αριθµό των ανεξάρτητων µεταβλητών που µπορείτε να καταχωρήσετε· υπάρχουν περιορισµοί κοινής λογικής που περιγράφονται στην εισαγωγή. Η επιλογή Block 1 of 1 σας επιτρέπει να δηµιουργήσετε και να κάνετε περισσότερες από µία αναλύσεις παλινδρόµησης σε µία µόνον προσπάθεια. Αφού έχετε επιλέξει την εξαρτηµένη µεταβλητή και τις ανεξάρτητες µεταβλητές κι έχετε κάνει όλες τις επιθυµητές επιλογές σχετικά µε την ανάλυση, κάντε κλικ στο πλήκτρο Next στα δεξιά του Block 1of 1. Η εξαρτηµένη µεταβλητή θα παραµείνει, όλες οι επιλογές και οι παράµετροι που θέσατε θα παραµείνουν, αλλά οι ανεξάρτητες µεταβλητές θα επανέλθουν στη λίστα µεταβλητών. Τότε µπορείτε να θέσετε τις παραµέτρους για µια δεύτερη ανάλυση παλινδρόµησης. Μπορείτε να ορίσετε όσες διαφορετικές αναλύσεις θέλετε σε µία µοναδική προσπάθεια· ένα κλικ στο πλήκτρο OK θα τις τρέξει µε την ίδια σειρά που τις δηµιουργήσατε. Στις παραγράφους που ακολουθούν περιγράφονται πολλές επιπλέον επιλογές.

Το πλαίσιο του µενού που καλείτε Method (=µέθοδος) είναι πολύ σηµαντικό. Ορίζει πέντε διαφορετικές µεθόδους καταχώρησης των µεταβλητών στην εξίσωση παλινδρόµησης. Μ’ ένα κλικ στο , εµφανίζονται και οι πέντε επιλογές. Η Enter είναι

Page 133: Notes Spss

η προεπιλεγµένη µέθοδος καταχώρησης µεταβλητών. Κάθε µία περιγράφεται παρακάτω:

• Enter (=εισαγωγή): Αυτή είναι η επιλογή αναγκαστικής καταχώρησης. Το SPSS θα καταχωρήσει όλες τις προσδιορισµένες µεταβλητές µαζί ανεξάρτητα απ’ τα επίπεδα σηµαντικότητας.

• Forward (=προς τα εµπρός): Αυτή η µέθοδος θα καταχωρήσει τις µεταβλητές µία κάθε φορά, µε βάση την αντίστοιχη τιµή σηµαντικότητας. Η διαδικασία σταµατάει όταν δεν υπάρχουν άλλες µεταβλητές που να εξηγούν σηµαντικό κοµµάτι της επιπλέον διακύµανσης.

• Backward (=προς τα πίσω): Αυτή η µέθοδος καταχωρεί όλες τις ανεξάρτητες µεταβλητές µαζί και στη συνέχεια αφαιρεί µεταβλητές, µία κάθε φορά, µε βάση µια προκαθορισµένη τιµή σηµαντικότητας. Η συνηθισµένη τιµή, πάνω από την οποία αφαιρείται µια µεταβλητή, είναι p ≥ 0,10. Όταν δεν υπάρχουν άλλες µεταβλητές που να πληρούν την προϋπόθεση σηµαντικότητας, η διαδικασία σταµατάει.

• Stepwise (=βήµα βήµα): Αυτή η µέθοδος συνδυάζει τις διαδικασίες Forward και Backward. Λόγω της πολυπλοκότητας των ενδοσυσχετίσεων, η διακύµανση που εξηγείται από συγκεκριµένες µεταβλητές θα αλλάξει όταν µια νέα µεταβλητή καταχωρηθεί στην εξίσωση. Μερικές φορές κάποια µεταβλητή που έχει τη δυνατότητα να καταχωρηθεί χάνει µέρος της προβλεπτικής της ισχύος όταν καταχωρούνται άλλες µεταβλητές. Αν γίνει κάτι τέτοιο, η µέθοδος Stepwise θα αποµακρύνει την «αποδυναµωµένη» µεταβλητή. Η Stepwise είναι πιθανότατα η πιο συχνά χρησιµοποιούµενη από τις µεθόδους παλινδρόµησης.

• Remove (=Αποµάκρυνση): Αυτή είναι η επιλογή αναγκαστικής αποµάκρυνσης. Χρειάζεται µια αρχική ανάλυση παλινδρόµησης χρησιµοποιώντας τη διαδικασία Enter. Στην επόµενη δέσµη (Block 1 of 1) µπορείτε να ορίσετε µία ή περισσότερες µεταβλητές προς αποµάκρυνση. Το SPSS θα αποµακρύνει τότε τις προσδιορισµένες µεταβλητές και θα κάνει ξανά την ανάλυση. Είναι επίσης πιθανό να αποµακρύνετε µεταβλητές µία κάθε φορά για πολλές δέσµες.

Το πλήκτρο WLS>> (Weighted Least Squares = Σταθµικά Ελάχιστα Τετράγωνα) σας επιτρέπει να επιλέξετε µία µοναδική µεταβλητή (που δεν έχει ήδη οριστεί σαν µεταβλητή πρόβλεψης), η οποία θα σταθµίζει τις µεταβλητές πριν από την ανάλυση. Πρόκειται για µια ευρέως χρησιµοποιούµενη επιλογή.

Η επιλογή Plots (=Γραφήµατα) ασχολείται µε την απεικόνιση των υπολοίπων (residuals) µόνο και δεν θα την εξετάσουµε.

Ένα κλικ στο Statistics (=Στατιστικά) ανοίγει ένα µικρό πλαίσιο διαλόγου (Οθόνη 7.2). ∆ύο από τις επιλογές είναι ήδη σηµειωµένες. Η επιλογή Estimates (=Εκτιµήσεις) θα δώσει τις τιµές Β (χρησιµοποιούνται σαν συντελεστές στην εξίσωση παλινδρόµησης), τις Beta (τους τυποποιηµένους συντελεστές παλινδρόµησης) και τα σχετικά τυπικά σφάλµατα, τιµές t, και τιµές σηµαντικότητας. Η επιλογή Model fit (=Καταλληλότητα Μοντέλου) δίνει τον Πολλαπλό R, τον R2, έναν πίνακα ANOVA, και τους σχετικούς λόγους F και τιµές σηµαντικότητας. Αυτές οι δύο επιλογές αντιπροσωπεύουν την ουσία των αποτελεσµάτων της πολλαπλής παλινδρόµησης.

Page 134: Notes Spss

Οθόνη 7.2

To παράθυρο Linear Regression: Statistics

Άλλες ευρέως χρησιµοποιούµενες επιλογές είναι οι:

• Confidence intervals (=∆ιαστήµατα Εµπιστοσύνης): ∆ίνει διαστήµατα εµπιστοσύνης 95% για τις τιµές Β.

• Covariance matrix (=Μήτρα Συνδιακύµανσης): ∆ίνει µια µήτρα συµδιακύµανσης-διακύµανσης-συσχέτισης µε τις συνδιακυµάνσεις κάτω από τη διαγώνιο, τις διακυµάνσεις πάνω στη διαγώνιο, και τις συσχετίσεις πάνω από τη διαγώνιο. Πρόκειται απλώς για ένα εργαλείο που χρησιµοποιείται στη διαδικασία της παλινδρόµησης για τον εντοπισµό συγγραµµικότητας µεταξύ των µεταβλητών.

• R squared change (=Αλλαγή στον R τετράγωνο): Στις διαδικασίες Forward και Stepwise πιστοποιεί την αλλαγή στην τιµή του R2 καθώς καταχωρείται µια νέα µεταβλητή στην εξίσωση παλινδρόµησης.

• Descriptives (=Περιγραφικά): Ο µέσος, οι τυπικές αποκλίσεις και µια µήτρα συσχετίσεων των µεταβλητών.

• Collinearity diagnostics (=∆ιαγνωστικά Μέτρα Συγγραµµικότητας): Βοηθάει στην διερεύνηση του αν υπάρχει συγγραµµικότητα ανάµεσα στη µεταβλητή πρόβλεψης και τις µεταβλητές κριτήρια.

Ένα κλικ στο πλήκτρο Save (=Αποθήκευση) ανοίγει ένα πλαίσιο διαλόγου (Οθόνη 7.3) µε πολλούς άγνωστους όρους, ακόµη και σε όσους έχουν γνώσεις ανώτερων µαθηµατικών. Γενικά η επιλογή κάποιου όρου απ’ το συγκεκριµένο πλαίσιο διαλόγου θα αποθηκεύσει στο αρχείο δεδοµένων µία ή περισσότερες νέες τιµές µεταβλητών που καθορίζονται από µια σειρά διαφορετικών διαδικασιών. Το περιεχόµενο των πέντε πλαισίων περιγράφεται εν συντοµία παρακάτω.

• Residuals (=Υπόλοιπα): Η περιγραφή της διαδικασίας αυτής ξεπερνάει το σκοπό των σηµειώσεων.

• Influence Statistics (=Στατιστικά Μέτρα Επίδρασης): Αυτό το πλαίσιο ασχολείται µε την πολύ χρήσιµη λειτουργία του τι συµβαίνει σε µια κατανοµή ή µια ανάλυση όταν διαγράφεται µια συγκεκριµένη παρατήρηση. Από καιρό σε

Page 135: Notes Spss

καιρό µπορεί να είναι απαραίτητο να διαγράψετε ακόµη και έγκυρα δεδοµένα. Υπήρχε µια φορά ένας φοιτητή στο UCLA, ο οποίος µπορούσε να τρέξει ένα µίλι σε 4 λεπτά (ο Jim Robins). Αν µετρούσαµε τη φυσική κατάσταση µε βάση το χρόνο στον οποίο κάποιος τρέχει ένα µίλι, ο µέσος όρος της τάξης πιθανότατα θα ήταν γύρω στα 8 λεπτά. Παρά το γεγονός ότι το αποτέλεσµα του Jim είναι έγκυρο, είναι σίγουρα µη φυσιολογικό όταν συγκρίνεται µε το γενικό πληθυσµό. Εποµένως η διαγραφή αυτής της τιµής µπορεί να είχε σηµαντική επίδραση στα αποτελέσµατα κάποιας ανάλυσης.

• Prediction Intervals (=∆ιαστήµατα Πρόβλεψης): Υπάρχουν επίπεδα εµπιστοσύνης 95% (ή οποιαδήποτε άλλα επιθυµείτε) είτε για το µέσο µιας µεταβλητής είτε για µια µεµονωµένη παρατήρηση.

• Distances (=Αποστάσεις): Τρεις διαφορετικοί τρόποι µέτρησης των αποστάσεων µεταξύ των παρατηρήσεων.

• Predicted Values (=Αναµενόµενες Τιµές): Οι Unstandardized (=Μη τυποποιηµένες) αναµενόµενες τιµές είναι συχνά χρήσιµο να συγκρίνονται µε τις πραγµατικές τιµές όταν εξετάζουµε την εγκυρότητα µιας εξίσωσης παλινδρόµησης.

Οθόνη 7.3

To παράθυρο Linear Regression: Save

Τέλος εξετάζουµε το πλαίσιο διαλόγου που εµφανίζεται όταν κάνετε κλικ στο πλήκτρο Options (= Επιλογές) (Οθόνη 7.4, παρακάτω). Η εντολή Include constant in equation (=συµπεριέλαβε τη σταθερά στην εξίσωση) είναι ήδη επιλεγµένη και θα πρέπει να παραµείνει έτσι εκτός αν υπάρχει κάποιος συγκεκριµένος λόγος για την

Page 136: Notes Spss

αποεπιλογή της. Η εντολή Stepping Method Criteria (=Κριτήρια της Μεθόδου Stepping), ανάλογα µε το πλαίσιό σας, µπορεί να χρησιµοποιηθεί αρκετά συχνά. Αυτή σας επιτρέπει να επιλέξετε την τιµή p για κάποια µεταβλητή προκειµένου να την εισάγετε στην εξίσωση (η αρχικά ορισµένη είναι 0,05) για τις µεθόδους Forward και Stepwise, ή την τιµή p για να αποµακρύνετε κάποια µεταβλητή που έχει ήδη καταχωρηθεί (η αρχικά ορισµένη είναι 0,10) για τις µεθόδους Stepwise και Backward. Αν θέλετε µπορείτε αντ’ αυτών να επιλέξετε τιµές F ως κριτήρια καταχώρησης ή αποµάκρυνσης από την εξίσωση παλινδρόµησης.

Οθόνη 7.4

To παράθυρο Linear Regression: Options

Οι αναλύσεις των οποίων θα ερµηνεύσουµε στη συνέχεια τα αποτελέσµατα είναι οι εξής:

Η πρώτη είναι η απλούστερη δυνατή ανάλυση παλινδρόµησης µε την zhelp ως εξαρτηµένη µεταβλητή και τις sympathy, severity, empatend, efficacy και anger ως ανεξάρτητες µεταβλητές (µεταβλητές πρόβλεψης). Ως µέθοδο καταχώρησης µεταβλητών θα επιλέξουµε τη Forward.

Η ανάλυση αυτή θα προσδιορίζει ποιες από τις ανεξάρτητες µεταβλητές (συµπάθεια, τάση συναισθηµατικής κατανόησης, επάρκεια εκείνου που παρέχει βοήθεια, και ο θυµός εκείνου που παρέχει βοήθεια) έχουν τη µεγαλύτερη επίδραση στην ανεξάρτητη µεταβλητή, το χρόνο δηλαδή που αφιερώνεται σε βοήθεια. Η µέθοδος επιλογής forward θα καταχωρήσει πρώτα την ανεξάρτητη µεταβλητή που έχει την υψηλότερη διµεταβλητή συσχέτιση µε τη βοήθεια (help), στη συνέχεια θα καταχωρήσει τη δεύτερη µεταβλητή που εξηγεί το µεγαλύτερο επιπλέον κοµµάτι της διακύµανσης που παρουσιάζει ο χρόνος που αφιερώνεται στη βοήθεια, στη συνέχεια θα καταχωρήσει κάποια τρίτη µεταβλητή και ούτω καθ’ εξής µέχρι να µην υπάρχουν άλλες µεταβλητές που να επηρεάζουν σηµαντικά το µέγεθος της παρεχόµενης βοήθειας.

Η δεύτερη είναι µια ανάλυση που περιλαµβάνει µια σειρά από επιλογές που συζητήσαµε παραπάνω. Θεωρούµε και πάλι εξαρτηµένη µεταβλητή τη zhelp και ανεξάρτητες τις sympathy, severity, empatend, efficacy και anger, ενώ χρησιµοποιούµε τη µέθοδο επιλογής Stepwise. Συµπεριλαµβάνουµε τις επιλογές που αφορούν τα στατιστικά µέτρα Εκτιµήσεων (Estimates), τα Περιγραφικά µέτρα (Descriptives), και την Εφαρµογή του Μοντέλου (Model fit), σηµειώνοντας την

Page 137: Notes Spss

επιλογή Unstandardized predicted values σαν πρόσθετη αποθηκευµένη µεταβλητή και ορίζοντας Τιµή Καταχώρησης (Entry value) το 0,10 και Τιµή Αποµάκρυνσης (Removal value) το 0,20.

Η ανάλυση αυτή θα προσδιορίζει ποιες από τις ανεξάρτητες µεταβλητές (συµπάθεια, τάση συναισθηµατικής κατανόησης, επάρκεια εκείνου που παρέχει βοήθεια και θυµός εκείνου που παρέχει βοήθεια) έχουν τη µεγαλύτερη επίδραση στην ανεξάρτητη µεταβλητή, το χρόνο δηλαδή που αφιερώνεται σε βοήθεια. Η µέθοδος επιλογής stepwise θα καταχωρήσει πρώτα την ανεξάρτητη µεταβλητή που έχει την υψηλότερη διµεταβλητή συσχέτιση µε τη βοήθεια (help), στη συνέχεια θα καταχωρήσει τη δεύτερη µεταβλητή που εξηγεί το µεγαλύτερο επιπλέον κοµµάτι της διακύµανσης, στη συνέχεια θα καταχωρήσει κάποια τρίτη µεταβλητή και ούτω καθ’ εξής µέχρι να µην υπάρχουν άλλες µεταβλητές που να επηρεάζουν σηµαντικά (η σηµαντικότητα έχει οριστεί p ≤ 0,10 γι’ αυτή την ανάλυση) το µέγεθος της παρεχόµενης βοήθειας. Αν η επίδραση κάποιας µεταβλητής έχει τιµή σηµαντικότητας µεγαλύτερη από 0,20 µετά από την καταχώρηση κάποιας νέας, τότε θα αποµακρυνθεί από την εξίσωση παλινδρόµησης. Ζητάµε την αποθήκευση κάποιας νέας µεταβλητής που θα περιλαµβάνει τον προβλεπόµενο χρόνο που κάθε ένας ερωτώµενος αφιέρωσε στην παροχή βοήθειας. Ζητάµε επίσης την προσθήκη των µέτρων περιγραφικής στατιστικής και τη µήτρα συσχετίσεων όλων των µεταβλητών.

ΑΠΟΤΕΛΕΣΜΑΤΑ

Ανάλυση Πολλαπλής Παλινδρόµησης

Τα ακόλουθα αποτελέσµατα αφορούν την πρώτη ανάλυση που περιγράψαµε παραπάνω. Η µορφή των αποτελεσµάτων είναι αρκετά διαφορετική (και πολύ πιο τακτοποιηµένη) από αυτή που δίνει το SPSS, αλλά περιλαµβάνονται όλα τα σχετικά δεδοµένα µε την ακριβή ορολογία τους. Καθώς οι διαδικασίες γίνονται πιο περίπλοκες (στα κεφάλαια που ακολουθούν) υπάρχει αυξηµένη ανάγκη να περιορίσουµε την παρουσίαση µόνον στα πιο σχετικά αποτελέσµατα.

Model Summary

,616c ,380 ,355 1,00582Model3

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), SYMPATHY, ANGER, EFFICACYc.

ANOVAd

47,654 3 15,885 15,701 ,000c

77,899 77 1,012125,553 80

RegressionResidualTotal

Model3

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), SYMPATHY, ANGER, EFFICACYc.

Dependent Variable: ZHELPd.

Page 138: Notes Spss

Coefficientsa

-4,308 ,732 -5,885 ,000,494 ,100 ,451 4,938 ,000,284 ,083 ,310 3,429 ,001,412 ,132 ,284 3,134 ,002

(Constant)SYMPATHYANGEREFFICACY

Model3

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: ZHELPa.

Excluded Variablesd

,077c ,787 ,433 ,090 ,844,119c 1,269 ,208 ,144 ,909

SEVERITYEMPATEND

Model3

Beta In t Sig.Partial

Correlation Tolerance

CollinearityStatistics

Predictors in the Model: (Constant), SYMPATHY, ANGER, EFFICACYc.

Dependent Variable: ZHELPd.

Με µια πρώτη µατιά εντοπίζετε τα κύρια στοιχεία της ανάλυσης: Τρεις µεταβλητές ικανοποίησαν το κριτήριο εισαγωγής προκειµένου να συµπεριληφθούν στην εξίσωση (οι sympathy, anger, και efficacy) και δύο µεταβλητές δεν το ικανοποίησαν (οι severity και empatened). Ο πολλαπλός R δείχνει µια σηµαντική συσχέτιση ανάµεσα στις τρεις µεταβλητές πρόβλεψης και την εξαρτηµένη µεταβλητή zhelp (R =0,616). Η τιµή του R τετράγωνο δείχνει ότι το 38% περίπου της διακύµανσης στη zhelp εξηγείται από τις τρεις µεταβλητές πρόβλεψης. Οι τιµές β δείχνουν τη σχετική επίδραση των καταχωρηµένων µεταβλητών, δηλαδή ότι η συµπάθεια (sympathy) έχει τη µεγαλύτερη επίδραση στη βοήθεια (help) (β = 0,45), ακολουθεί ο θυµός (anger) (β = 0,31) και τέλος η επάρκεια (efficacy). Η κατεύθυνση της επίδρασης και για τις τρεις είναι θετική.

ΑΛΛΑΓΗ ΣΤΙΣ ΤΙΜΕΣ ΚΑΘΩΣ ΠΡΟΣΤΙΘΕΤΑΙ ΚΑΘΕ ΝΕΑ ΜΕΤΑΒΛΗΤΗ

Αυτό που ακολουθεί είναι τµήµα των αποτελεσµάτων από τη δεύτερη ανάλυση που περιγράψαµε. Ακόµα µια φορά αυτά τα αποτελέσµατα είναι µια σύντοµη εκδοχή των αποτελεσµάτων που στην πραγµατικότητα εµφάνισε το SPSS, προκειµένου να παρουσιάσουµε τις αλλαγές στις µεταβλητές, βήµα προς βήµα, καθώς νέες µεταβλητές καταχωρούνται στην εξίσωση παλινδρόµησης.

Ο σκοπός της παρουσίασης των αποτελεσµάτων και των τριών βηµάτων σ’ αυτή τη µορφή είναι να µπορέσετε να δείτε πώς µεταβάλλονται οι υπολογισµένες τιµές των µεταβλητών καθώς προστίθεται κάθε νέα µεταβλητή. Προσέξτε για παράδειγµα πώς αυξάνουν οι τιµές του παλλαπλού R, του R τετράγωνο και του προσαρµοσµένου R τετράγωνο µε την προσθήκη κάθε νέας µεταβλητής. Προσέξτε επίσης πώς οι τιµές του τυπικού σφάλµατος και της µεταβολής του R τετράγωνο µειώνονται µε την προσθήκη των νέων µεταβλητών. Παρόµοια µοτίβα µπορούν να παρατηρηθούν για τους βαθµούς ελευθερίας, το άθροισµα των τετραγώνων και τα µέσα τετράγωνα.

Page 139: Notes Spss

Model Summaryd

,455a ,207 ,197 1,12252,548b ,300 ,282 1,06119,616c ,380 ,355 1,00582

Model123

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), SYMPATHYa.

Predictors: (Constant), SYMPATHY, ANGERb.

Predictors: (Constant), SYMPATHY, ANGER, EFFICACYc.

Dependent Variable: ZHELPd.

ANOVAd

26,008 1 26,008 20,641 ,000a

99,544 79 1,260125,553 8037,715 2 18,858 16,746 ,000b

87,837 78 1,126125,553 8047,654 3 15,885 15,701 ,000c

77,899 77 1,012125,553 80

RegressionResidualTotalRegressionResidualTotalRegressionResidualTotal

Model1

2

3

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), SYMPATHYa.

Predictors: (Constant), SYMPATHY, ANGERb.

Predictors: (Constant), SYMPATHY, ANGER, EFFICACYc.

Dependent Variable: ZHELPd.

Επιπλέον σχόλια συµπεριλαµβάνονται στους ορισµούς των όρων που ακολουθούν.

Όρος Ορισµός/ Περιγραφή PROB OF F TO ENTER (=ΠΙΘΑΝΟΤΗΤΑ ΕΙΣΑΓΩΓΗΣ F)

Η τιµή της πιθανότητας να καταχωρηθεί µια µεταβλητή στην εξίσωση παλινδρόµησης. Σ’ αυτή την περίπτωση p =0,05, η αρχικά ορισµένη τιµή.

PROB OF F TO REMOVE (=ΠΙΘΑΝΟΤΗΤΑ ΑΠΟΜΑΚΡΥΝΣΗΣ F)

Μόνον για τις διαδικασίες stepwise και backward. Η τιµή της πιθανότητας να αποµακρυνθεί µια ήδη καταχωρηµένη µεταβλητή από την εξίσωση παλινδρόµησης.

R Ο συντελεστής πολλαπλής συσχέτισης ανάµεσα στην εξαρτηµένη µεταβλητή zhelp και στις τρεις µεταβλητές της εξίσωσης παλινδρόµησης, τις sympathy, anger, και efficacy.

R SQUARE (=R ΤΕΤΡΑΓΩΝΟ)

Η τιµή R2 ορίζει το κοµµάτι της διακύµανσης για το οποίο ευθύνονται οι ανεξάρτητες µεταβλητές· δηλαδή, για το 38% περίπου της διακύµανσης στη zhelp ευθύνονται οι sympathy, anger, και efficacy.

Page 140: Notes Spss

ADJUSTED R SQUARE (=ΠΡΟΣΑΡΜΟΣΜΕΝΟΣ R ΤΕΤΡΑΓΩΝΟ)

Ο συντελεστής R2 είναι ένα ακριβές µέτρο για το δείγµα απ’ το οποίο προκύπτει αλλά θεωρείται αισιόδοξη εκτίµηση για τον πληθυσµό. Ο προσαρµοσµένος R2 θεωρείται καλύτερο µέτρο εκτίµησης για τον πληθυσµό και είναι χρήσιµος όταν συγκρίνουµε τις τιµές του R2 για διάφορα µοντέλα µε διαφορετικούς αριθµούς ανεξάρτητων µεταβλητών.

STANDARD ERROR (=ΤΥΠΙΚΟ ΣΦΑΛΜΑ)

Το ΤΥΠΙΚΟ ΣΦΑΛΜΑ είναι η τυπική απόκλιση της αναµενόµενης τιµής της (σ’ αυτή την περίπτωση) zhelp. Προσέξτε ότι αυτή η τιµή µειώνεται καθώς κάθε νέα µεταβλητή προστίθεται στην εξίσωση (δείτε τα αποτελέσµατα της επόµενης ενότητας).

REGRESSION (=ΠΑΛΙΝ∆ΡΟΜΗΣΗ)

Στατιστικά µέτρα σχετικά µε το επεξηγηµένο κοµµάτι της διακύµανσης.

RESIDUAL (=ΥΠΟΛΟΙΠΑ)

Στατιστικά µέτρα σχετικά µε το ανεξήγητο κοµµάτι της διακύµανσης.

DF (=ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ)

Για την παλινδρόµηση, ο αριθµός των ανεξάρτητων µεταβλητών στην εξίσωση. Για τα υπόλοιπα, Ν µείον τον αριθµό των ανεξάρτητων µεταβλητών που καταχωρήθηκαν, µείον 1: 81 – 3 – 1 = 77

SUM OF SQUARES (=ΑΘΡΟΙΣΜΑ ΤΕΤΡΑΓΩΝΩΝ)

Το άθροισµα τετραγώνων της παλινδρόµησης αντιστοιχεί στο άθροισµα τετραγώνων µεταξύ οµάδων της ANOVA και το άθροισµα τετραγώνων των υπολοίπων αντιστοιχεί στο άθροισµα τετραγώνων εντός οµάδας της ANOVA. Προσέξτε ότι σ’ αυτή την περίπτωση το ανεξήγητο κοµµάτι της διακύµανσης είναι µεγαλύτερο από το επεξηγηµένο, µια πραγµατικότητα που αντανακλάται και στην τιµή του R ΤΕΤΡΑΓΩΝΟ.

MEAN SQUARE (=ΜΕΣΟ ΤΕΤΡΑΓΩΝΟ)

Το άθροισµα των τετραγώνων διαιρεµένο µε τους βαθµούς ελευθερίας.

F Το µέσο τετράγωνο της παλινδρόµησης διαιρεµένο µε το µέσο τετράγωνο των υπολοίπων.

SIGNIF F (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ F)

Η πιθανότητα η συγκεκριµένη τιµή F προέκυψε τυχαία. Τα παρόντα αποτελέσµατα δείχνουν ότι η πιθανότητα µια δεδοµένη συσχέτιση να προέκυψε τυχαία είναι µικρότερη από µία στις 10.000

B Οι συντελεστές και η σταθερά της εξίσωσης παλινδρόµησης που µετρά τις αναµενόµενες τιµές της ZHELP: zhelp(αναµενόµενη) = -4,3078 + 0,494(sympathy) + 0,284(anger) + 0,412(efficacy)

STD ERROR (=ΤΥΠΙΚΟ ΣΦΑΛΜΑ)

Τυπικό σφάλµα του Β: Ένα µέτρο της σταθερότητας του δειγµατοληπτικού λάθους των τιµών Β. Είναι η τυπική απόκλιση των τιµών Β δεδοµένου ενός µεγάλου αριθµού δειγµάτων από τον ίδιο πληθυσµό.

BETA (β) Οι συντελεστές της τυποποιηµένης παλινδρόµησης. Αυτή είναι η τιµή Β για τις τυποποιηµένες τιµές (τιµές z) των ανεξάρτητων µεταβλητών. Στις γραµµικές σχέσεις η συγκεκριµένη τιµή θα κυµαίνεται πάντα µεταξύ ± 1. Στις µη γραµµικές σχέσεις κάποιες φορές θα ξεπερνάει το εύρος αυτό.

t Το Β διαιρεµένο µε το τυπικό σφάλµα του Β. Αυτό ισχύει και για τις µεταβλητές της εξίσωσης και για τις µεταβλητές εκτός εξίσωσης.

Page 141: Notes Spss

SIGNIF t (=ΣΗΜΑΝΤΙΚΟΤΗΤΑ t)

Η πιθανότητα οι συγκεκριµένες τιµές t να προέκυψαν τυχαία.

BETA IN Οι τιµές Beta για τις µεταβλητές που εξαιρέθηκαν, αν αυτές ήταν πράγµατι στην εξίσωση παλινδρόµησης.

PARTIAL CORRELATION (=ΜΕΡΙΚΗ ΣΥΣΧΕΤΙΣΗ)

Ο συντελεστής µερικής συσχέτισης µε την εξαρτηµένη µεταβλητή zhelp, προσαρµοσµένος για µεταβλητές που βρίσκονται ήδη στην εξίσωση παλινδρόµησης. Για παράδειγµα, η απλή συσχέτιση (r) µεταξύ της zhelp και της severity είναι 0,292. Αφού οι sympathy, anger, και efficacy έχουν «καταβροχθίσει» µεγάλο κοµµάτι της διακύµανσης, η µερική συσχέτιση µεταξύ της zhelp και της severity είναι 0,089. Η empatened, από την άλλη µεριά, µειώνεται πολύ λίγο, από 0,157 σε 0,144.

MINIMUM TOLERANCE (=ΕΛΑΧΙΣΤΗ ΑΝΟΧΗ)

Η ανοχή είναι ένα ευρέως χρησιµοποιούµενο µέτρο συγγραµµικότητας. Ορίζεται ως 1- Ri

2, όπου Ri η τιµή R της µεταβλητής i, όταν η µεταβλητή i προβλέπεται από όλες τις άλλες ανεξάρτητες µεταβλητές. Μια χαµηλή τιµή ανοχής (κοντά στο 0) δηλώνει πολύ µεγάλη συγγραµµικότητα, δηλαδή η δεδοµένη µεταβλητή είναι σχεδόν ένας γραµµικός συνδυασµός των άλλων ανεξάρτητων µεταβλητών. Μια υψηλή τιµή (κοντά στο 1) δηλώνει ότι η µεταβλητή είναι σχετικά ανεξάρτητη από άλλες µεταβλητές. Το συγκεκριµένο µέτρο αφορά το θέµα της γραµµικής εξάρτησης που συζητήθηκε στην εισαγωγή. Όταν συµπεριλαµβάνονται µεταβλητές που είναι γραµµικά εξαρτηµένες, διογκώνουν τα τυπικά σφάλµατα, αποδυναµώνοντας έτσι την ισχύ της ανάλυσης. Καλύπτει επίσης άλλα προβλήµατα, όπως οι µη γραµµικές τάσεις στα δεδοµένα.

R SQUARE CHANGE (=ΜΕΤΑΒΟΛΗ ΤΟΥ R ΤΕΤΡΑΓΩΝΟ)

Πρόκειται για απλή αφαίρεση από την τιµή του R2 για τη δεδοµένη γραµµή της τιµής του R2 για την προηγούµενη γραµµή. Προσέξτε ότι η τιµή για τη µεταβλητή anger είναι 0,093 = 0,300 – 0,207 (στρογγυλοποιηµένο). Ο αριθµός (0,09324) δείχνει ότι ο συνυπολογισµός της δεύτερης µεταβλητής (anger) εξηγεί ένα επιπλέον 9,3% της διακύµανσης.

Page 142: Notes Spss

89

ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ

Ανάλυση Παραγόντων

Η Μήτρα Συσχετίσεων

Εξαγωγή Παραγόντων

Επιλογή και Περιστροφή Παραγόντων

Ερµηνεία των Αποτελεσµάτων

Βήµα προς Βήµα

9 Σε γενικές γραµµές ακολουθεί το κεφάλαιο 20 του βιβλίου των George και Mallery

Page 143: Notes Spss

ΤΑ ΤΕΛΕΥΤΑΙΑ 30 – 40 χρόνια η ανάλυση παραγόντων τυχαίνει ολοένα και µεγαλύτερης αποδοχής και απολαµβάνει εξαιρετικής δηµοτικότητας. Ο Raymond B. Cantell προσέλκυσε µεγάλη προσοχή στη διαδικασία όταν χρησιµοποίησε την ανάλυση παραγόντων για να περιορίσει µια λίστα περισσότερων από 4,500 χαρακτηριστικών σε λιγότερες από 200 ερωτήσεις που µετρούν 16 διαφορετικά χαρακτηριστικά προσωπικότητας στην καταγραφή προσωπικότητας που έφτιαξε και ονοµάζεται Ερωτηµατολόγιο 16 Παραγόντων Προσωπικότητας (16 Personality Factor Questionnaire—16PF). Η χρήση της ανάλυσης παραγόντων από τον Cantell υπογραµµίζει την πρωταρχική της χρησιµότητα, το να πάρεις δηλαδή ένα µεγάλο αριθµό περιστατικών που παρατηρήθηκαν για να µετρήσεις κάτι που δεν µπορεί να παρατηρηθεί. Για παράδειγµα: «πηγαίνει σε φανταχτερά πάρτι», «µιλάει πολύ», «φαίνεται να έχει άνεση στην επικοινωνία σχεδόν µε τους πάντες», και «τον βλέπουµε συνήθως µε παρέα» είναι τέσσερις συµπεριφορές που µπορούν να παρατηρηθούν και µπορεί να µετρούν το χαρακτηριστικό «εξωστρεφής» που δεν µπορεί να παρατηρηθεί. Η ανάλυση παραγόντων χρησιµοποιείται συνήθως για να εντοπίσει ένα µικρό αριθµό παραγόντων (π.χ. εξωστρέφεια) που µπορούν να χρησιµοποιηθούν για να αντιπροσωπεύσουν σχέσεις µεταξύ συσχετιζόµενων µεταβλητών (π.χ. οι τέσσερις περιγραφητές [=descriptor]).

Απαιτούνται τέσσερα βασικά βήµατα προκειµένου να κάνετε ανάλυση παραγόντων:

1. Υπολογίζετε τη µήτρα συσχετίσεων για όλες τις µεταβλητές που θα χρησιµοποιηθούν στην ανάλυση.

2. Εξάγετε τους παράγοντες.

3. Περιφέρετε τους παράγοντες για να δηµιουργήσετε µια πιο κατανοητή δοµή.

4. Ερµηνεύετε τα αποτελέσµατα.

Τα τρία πρώτα βήµατα καλύπτονται στην εισαγωγή. Για το βήµα 4, θα δώσουµε µια εννοιολογική αίσθηση του πώς ερµηνεύουµε τα αποτελέσµατα αλλά το µεγαλύτερο µέρος της επεξήγησης θα γίνει στην ενότητα των αποτελεσµάτων.

∆ΗΜΙΟΥΡΓΙΑ ΤΗΣ ΜΗΤΡΑΣ ΣΥΣΧΕΤΙΣΕΩΝ

Ο υπολογισµός της µήτρας συσχετίσεων όλων των µεταβλητών που µας ενδιαφέρουν είναι το σηµείο έναρξης για την ανάλυση παραγόντων. Αυτό το σηµείο έναρξης δίνει κάποια πρώτα στοιχεία σχετικά µε το πώς λειτουργεί η ανάλυση παραγόντων. Ακόµη και σ’ αυτό το στάδιο είναι ξεκάθαρο ότι η ανάλυση παραγόντων προκύπτει από συνδυασµούς ή συσχετισµούς µεταξύ µεταβλητών-περιγραφητές. ∆εν είναι απαραίτητο να πληκτρολογήσετε κάποια µήτρα συσχετίσεων προκειµένου να γίνει η ανάλυση παραγόντων. Αν ξεκινάτε µε µη επεξεργασµένα δεδοµένα (όπως έχουµε κάνει σε όλα τα κεφάλαια µέχρι τώρα), η εντολή Factor (=παράγοντας) θα δηµιουργήσει αυτοµάτως µια µήτρα συσχετίσεων σαν πρώτο βήµα. Σε µερικές περιπτώσεις ο ερευνητής µπορεί να µην έχει ακατέργαστα δεδοµένα, αλλά µόνον µια µήτρα συσχετίσεων. Αν έτσι έχουν τα πράγµατα, είναι πιθανόν να κάνετε ανάλυση παραγόντων εισάγοντας τη µήτρα συσχετίσεων σε κάποιο αρχείο syntax command του SPSS. Η διαδικασία πάντως είναι πολύπλοκη και το να την περιγράψουµε εδώ ξεφεύγει από το σκοπό των σηµειώσεων.

Page 144: Notes Spss

ΕΞΑΓΩΓΗ ΠΑΡΑΓΟΝΤΩΝ

Ο σκοπός της φάσης εξαγωγής παραγόντων είναι να εξάγετε τους παράγοντες! Παράγοντες είναι τα βασικά χαρακτηριστικά που περιγράφουν το σύνολο των µεταβλητών σας. Μαθηµατικά, αυτή η διαδικασία είναι παρόµοια µε το forward στην ανάλυση πολλαπλής παλινδρόµησης. Όπως θυµάστε (Κεφάλαιο 6) το πρώτο βήµα στην πολλαπλή παλινδρόµηση είναι η επιλογή και καταχώρηση της εξαρτηµένης µεταβλητής. Όταν ολοκληρωθεί αυτό, το επόµενο βήµα είναι να βρείτε και να καταχωρήσετε εκείνη την ανεξάρτητη µεταβλητή που εξηγεί στατιστικά σηµαντικά το µεγαλύτερο επιπλέον κοµµάτι της διακύµανσης της εξαρτηµένης µεταβλητής. Στη συνέχεια η διαδικασία επιλέγει και καταχωρεί τη µεταβλητή που εξηγεί σηµαντικά το επόµενο µεγαλύτερο επιπλέον κοµµάτι της διακύµανσης και ούτω καθ’ εξής, ωσότου δεν υπάρχουν άλλες µεταβλητές που να εξηγούν σηµαντικά επιπλέον διακύµανση.

Η διαδικασία στην ανάλυση παραγόντων είναι παρόµοια και η φάση εξαγωγής παραγόντων µπορεί να κατανοηθεί σε θεωρητικό επίπεδο αν ξαναγράψουµε την προηγούµενη παράγραφο παραλείποντας τις φράσεις «εξαρτηµένη µεταβλητή» και «σηµαντικά» και αλλάζοντας το ανεξάρτητη µεταβλητή σε µεταβλητές (πληθυντικός). Η ανάλυση παραγόντων ξεκινάει µε κάποια εξαρτηµένη µεταβλητή. Ξεκινάει µε τη µέτρηση της συνολικής διακύµανσης που παρατηρείται (όµοια µε το συνολικό άθροισµα τετραγώνων) σε όλες τις µεταβλητές που έχουν προσδιοριστεί για την ανάλυση παραγόντων. Προσέξτε ότι αυτή η ‘διακύµανση’ είναι λίγο δύσκολο να κατανοηθεί σε θεωρητικό επίπεδο, αλλά είναι εξαιρετικά ακριβής από µαθηµατική άποψη. Το πρώτο βήµα στην ανάλυση παραγόντων είναι να επιλέξει ο υπολογιστής το συνδυασµό των µεταβλητών, οι συσχετίσεις των οποίων εξηγούν το µέγιστο δυνατό κοµµάτι της συνολικής διακύµανσης. Αυτός καλείται Παράγοντας 1 (Factor 1). Η ανάλυση παραγόντων στη συνέχεια θα εξάγει ένα δεύτερο παράγοντα. Αυτός είναι ο συνδυασµός των µεταβλητών που εξηγεί το µεγαλύτερο κοµµάτι της διακύµανσης που αποµένει, δηλαδή της διακύµανσης µετά την εξαγωγή του πρώτου παράγοντα. Αυτός καλείται παράγοντας 2. Η διαδικασία συνεχίζεται και για τον τρίτο, τέταρτο, πέµπτο παράγοντα, και ούτω καθ’ εξής, µέχρι να έχουν εξαχθεί τόσοι παράγοντες όσοι και οι µεταβλητές.

Στην προεπιλεγµένη διαδικασία του SPSS, σε κάθε µία από τις µεταβλητές προσδίδεται µια κοινή (communality) τιµή ίση µε 1.0. Οι κοινές τιµές έχουν σχεδιαστεί για να δείχνουν την αναλογία της διακύµανσης που συνεισφέρουν οι παράγοντες στην επεξήγηση µιας συγκεκριµένης µεταβλητής. Αυτές οι τιµές κυµαίνονται από 0 µέχρι 1 και µπορούν να ερµηνευτούν όµοια µε τον Πολλαπλό R (Multiple R), µε το 0 να σηµαίνει ότι οι κοινοί παράγοντες δεν εξηγούν καθόλου από τη διακύµανση µιας συγκεκριµένης µεταβλητής και το 1 να σηµαίνει ότι το σύνολο της διακύµανσης σ’ αυτή τη µεταβλητή εξηγείται από τους κοινούς παράγοντες. Παρόλα αυτά, για την προεπιλεγµένη διαδικασία στη φάση της αρχικής εξαγωγής, σε κάθε µεταβλητή δίδεται µια κοινή τιµή ίση µε 1,0.

Αφού εξαχθεί ο πρώτος παράγοντας το SPSS τοποθετεί µια ιδιοτιµή (eigenvalue) στα δεξιά του αριθµού του παράγοντα (π.χ. Αριθµός Παράγοντα = 1· ιδιοτιµή = 5,13312). Οι ιδιοτιµές έχουν σχεδιαστεί για να δείχνουν την αναλογία της διακύµανσης, για την οποία ευθύνεται κάθε παράγοντες (όχι κάθε µεταβλητή όπως ισχύει για τις κοινές τιµές). Η πρώτη ιδιοτιµή θα είναι πάντα η µεγαλύτερη (και θα είναι πάντα µεγαλύτερη από 1,0) επειδή ο πρώτος παράγοντας (βάσει του ορισµού της διαδικασίας) εξηγεί πάντα το µεγαλύτερο κοµµάτι διακύµανσης. Στη συνέχεια εµφανίζει το ποσοστό της διακύµανσης, για το οποίο ευθύνεται ο συγκεκριµένος παράγοντας (η ιδιοτιµή δια του αριθµού των µεταβλητών) κι ακολουθεί το αθροιστικό ποσοστό. Η απουσία της λέξης σηµαντικά φαίνεται απ’ το γεγονός ότι η εντολή Factor εξάγει τόσους παράγοντες

Page 145: Notes Spss

όσες και οι µεταβλητές, ανεξάρτητα απ’ το αν µετέπειτα παράγοντες εξηγούν σηµαντικό κοµµάτι της επιπλέον διακύµανσης.

ΕΠΙΛΟΓΗ ΚΑΙ ΠΕΡΙΣΤΡΟΦΗ ΠΑΡΑΓΟΝΤΩΝ

Οι παράγοντες που προκύπτουν απ’ το SPSS δεν παρουσιάζουν σχεδόν ποτέ όλοι ενδιαφέρον για τον ερευνητή. Αν έχετε τόσους παράγοντες όσες και µεταβλητές, δεν έχετε επιτύχει αυτό για το οποίο σχεδιάστηκε η ανάλυση παραγόντων. Ο στόχος είναι να εξηγήσετε τα φαινόµενα που σας ενδιαφέρουν µε λιγότερες µεταβλητές απ’ όσες είχατε αρχικά, συνήθως µε σηµαντικά λιγότερες. Θυµάστε τον Cattel; Ξεκίνησε µε 4.500 περιγραφητές και κατέληξε σε 16 χαρακτηριστικά.

Το πρώτο βήµα είναι να αποφασίσετε ποιους παράγοντες θέλετε να διατηρήσετε στην ανάλυση. Το κριτήριο της κοινής λογικής για τη διατήρηση παραγόντων είναι ότι κάθε ένας παράγοντας που κρατάτε πρέπει να έχει µια κάποια εµφανή ή θεωρητική εγκυρότητα· αλλά πριν από τη διαδικασία περιστροφής, είναι συχνά αδύνατον να ερµηνεύσετε τι σηµαίνει ο κάθε παράγοντας. Εποµένως, ο ερευνητής συνήθως επιλέγει κάποιο µαθηµατικό κριτήριο για να καθορίσει ποιους παράγοντες θα κρατήσει. Το SPSS έχει σαν προεπιλογή να κρατάει οποιοδήποτε παράγοντα έχει ιδιοτιµή µεγαλύτερη του 1,0. Αν κάποιος παράγοντας έχει ιδιοτιµή µικρότερη από 1,0, εξηγεί λιγότερη διακύµανση από κάποια αρχική µεταβλητή και συνήθως απορρίπτεται. (Θυµηθείτε ότι το SPSS θα εµφανίσει τόσους παράγοντες όσες και οι µεταβλητές και συνήθως η ιδιοτιµή θα είναι µεγαλύτερη του 1.0 για πολύ λίγους παράγοντες.) Υπάρχουν άλλα κριτήρια επιλογής (όπως το scree plot [ένας τύπος γραφήµατος]), ή θεωρητικοί λόγοι (βάσει της γνώσης σας για τα δεδοµένα) που µπορείτε να χρησιµοποιήσετε. Η διαδικασία επιλογής κάποιου αριθµού διαφορετικού από τον προεπιλεγµένο θα περιγραφεί στην ενότητα Βήµα προς Βήµα.

Αφού επιλεγούν οι παράγοντες, το επόµενο βήµα είναι να τους περιστρέψετε. Η περιστροφή είναι απαραίτητη επειδή η αρχική δοµή των παραγόντων είναι µαθηµατικά σωστή αλλά ερµηνεύεται πολύ δύσκολα. Σκοπός της περιστροφής είναι να επιτύχει αυτό που λέµε απλή δοµή, δηλαδή µεγάλο βάρος σε έναν παράγοντα (factor loading) και µικρά σε όλους τους άλλους. Τα βάρη των παραγόντων κυµαίνονται στο ± 1.0 και δείχνουν τη δύναµη της σχέσης ανάµεσα σε µια συγκεκριµένη µεταβλητή κι έναν συγκεκριµένο παράγοντα, όπως και στη συσχέτιση. Για παράδειγµα, η φράση «πηγαίνει σε φανταχτερά πάρτι» µπορεί να έχει µεγάλο βάρος στον παράγοντα «εξωστρέφεια» (ίσως >0,6) και µικρό στον παράγοντα «ευφυΐα» (ίσως < 0,1). Αυτό οφείλεται στο ότι η δήλωση «πηγαίνει σε φανταχτερά πάρτι» θεωρείται σχετική µε την εξωστρέφεια, αλλά άσχετη µε την ευφυΐα. Ιδανικά, µε την απλή δοµή θα είχαµε ολόκληρο το βάρος κάθε µεταβλητής σε έναν µόνο παράγοντα και καθόλου στους υπόλοιπους. Στο δεύτερο γράφηµα (παρακάτω), αυτό θα σήµαινε ότι όλοι οι αστερίσκοι θα βρίσκονταν πάνω στις γραµµές των παραγόντων. Στην έρευνα των κοινωνικών επιστηµών, πάντως, κάτι τέτοιο δεν συµβαίνει ποτέ και ο στόχος είναι να περιστραφούν οι άξονες έτσι ώστε να έχουν τα σηµεία που αντιστοιχούν στα δεδοµένα όσο πιο κοντά γίνεται.

Η περιστροφή δεν αλλάζει τη µαθηµατική ακρίβεια της δοµής των παραγόντων, όπως ακριβώς το να κοιτάζετε µια εικόνα από µπροστά αντί να την κοιτάζετε απ’ το πλάι δεν αλλάζει την εικόνα και όπως η αλλαγή του µέτρου για το ύψος από ίντσες σε εκατοστά δεν αλλάζει το πόσο ψηλός είναι κάποιος. Η περιστροφή κάποτε γίνονταν µε το χέρι κι ο ερευνητής τοποθετούσε τους άξονες στη θέση που έµοιαζε να είναι η καταλληλότερη. Η περιστροφή µε το χέρι δεν είναι δυνατή στο SPSS, αλλά είναι διαθέσιµες πολλές µαθηµατικές διαδικασίες για την περιστροφή των αξόνων ώστε να επιτευχθεί η καλύτερη δυνατή δοµή. Η Varimax είναι η προεπιλεγµένη διαδικασία που

Page 146: Notes Spss

χρησιµοποιεί το SPSS αλλά υπάρχουν και πολλές άλλες (αναφέρονται στην ενότητα Βήµα προς Βήµα).

∆ιαγώνιες Περιστροφές: H περιστροφές της Varimax καλούνται ορθογώνιες περιστροφές επειδή οι άξονες που περιστρέφονται παραµένουν σε ορθή γωνία µεταξύ τους. Κάποιες φορές είναι δυνατόν να πετύχετε καλύτερη απλή δοµή αποκλίνοντας από το καρτεσιανό. Οι διαδικασίες Oblimin και Promax επιτρέπουν στον ερευνητή να αποκλίνει από το ορθογώνιο για να επιτύχει καλύτερη απλή δοµή. Θεωρητικά αυτή η απόκλιση σηµαίνει ότι οι παράγοντες δεν είναι πια ασυσχέτιστοι µεταξύ τους. Αυτό δεν είναι απαραίτητα ανησυχητικό επειδή στις κοινωνικές επιστήµες πολύ λίγοι παράγοντες είναι πλήρως ασυσχέτιστοι. Η χρήση των διαγώνιων περιστροφών µπορεί να είναι αρκετά περίεργη και (εδώ δίνουµε την τυπική συµβουλή µας) δεν θα πρέπει να τις χρησιµοποιείστε εκτός κι αν ξέρετε πάρα πολύ καλά τι κάνετε. Ας πάµε και λίγο παραπέρα: ∆εν θα πρέπει καν να επιχειρήσετε ανάλυση παραγόντων αν δεν έχετε παρακολουθήσει κάποιο σχετικό µάθηµα και δεν έχετε κατανοήσει πλήρως το θεωρητικό υπόβαθρο της διαδικασίας. Η τεχνική για τον καθορισµό Oblimin ή Promax περιστροφής περιγράφεται στην ενότητα Βήµα προς Βήµα. ∆εν την παρουσιάζουµε στην ενότητα των αποτελεσµάτων επειδή απαιτεί µεγαλύτερη προσοχή απ’ όση µπορούµε να διαθέσουµε εδώ.

ΕΡΜΗΝΕΙΑ

Σ’ έναν ιδανικό κόσµο κάθε µία από τις αρχικές µεταβλητές θα έχει µεγάλο βάρος (π.χ. > 0,5) σε έναν παράγοντα και µικρό (π.χ. < 0,2) στους άλλους. Επιπλέον, οι παράγοντες που έχουν τα µεγάλα βάρη θα έχουν εξαιρετική ονοµαστική εγκυρότητα και θα εµφανίζονται να µετράνε κάτι πολύ σηµαντικό. Στον πραγµατικό κόσµο κάτι τέτοιο συµβαίνει σπάνια. Συνήθως θα υπάρχουν δυο τρεις ενοχλητικές µεταβλητές που θα καταλήγουν να έχουν µεγάλο βάρος σε «λάθος» παράγοντα και συχνά κάποια µεταβλητή θα έχει µεγάλο βάρος σε δύο ή τρεις διαφορετικούς παράγοντες. Το αποτέλεσµα της ανάλυσης παραγόντων προϋποθέτει βαθιά κατανόηση των δεδοµένων σας και είναι σπάνιο να προκύψουν απολύτως ξεκάθαρα αποτελέσµατα από τους υπολογισµούς της ανάλυσης παραγόντων. Στην ενότητα των αποτελεσµάτων θα το ξεκαθαρίσουµε µ’ ένα πραγµατικό παράδειγµα. Το παράδειγµα θα παρουσιαστεί στις επόµενες παραγράφους.

Παίρνουµε το παράδειγµά µας από πραγµατικά δεδοµένα, τα οποία υπάρχουν στο αρχείο helping2.sav. Στο αρχείο helping2.sav η πεποίθηση ότι κάποιος έχει την δυνατότητα να βοηθήσει αποτελεσµατικά µετρήθηκε µε 15 ερωτήσεις, κάθε µία µαζί µε µια ερώτηση σχετική µε το µέγεθος της βοήθειας που µετρήθηκε µ’ ένα συγκεκριµένο τύπο βοήθειας.

Υπάρχουν τρεις κατηγορίες βοήθειας που αντιπροσωπεύονται στις 15 ερωτήσεις: έξι ερωτήσεις µέτρησαν τη συναισθηµατική βοήθεια, τέσσερις ερωτήσεις µέτρησαν την πληροφοριακή βοήθεια, τέσσερις ερωτήσεις µέτρησαν την πρακτική βοήθεια και η δέκατη πέµπτη ερώτηση ήταν ανοιχτή για να επιτρέψει την καταχώρηση άλλου είδους βοήθειας. Αυτό σηµαίνει ότι υπήρχε ο ίδιος αριθµός ερωτήσεων (15) που µέτρησαν τη δραστηριότητα για τις ίδιες τρεις κατηγορίες αυτάρκειας και µια δέκατη πέµπτη ερώτηση που σχετίζεται µε την ανοιχτή ερώτηση για τη βοήθεια. Η ανάλυση παραγόντων έγινε στις 15 ερωτήσεις για να δούµε αν από τα αποτελέσµατα θα προέκυπταν οι τρεις κατηγορίες αυτάρκειας που εξ’ αρχής είχαν δηµιουργηθεί.

Κάτι τελευταίο. Στην ενότητα Βήµα προς Βήµα θα υπάρχουν δύο εκδοχές για το βήµα 5. Το βήµα 5 θα είναι η απλούστερη δυνατή ανάλυση παραγόντων. Το βήµα 5α θα είναι το σύνολο των βηµάτων που περιλαµβάνουν πολλές από τις παραλλαγές που

Page 147: Notes Spss

παρουσιάζουµε σ’ αυτό το κεφάλαιο. Και τα δύο θα οδηγούν σε ανάλυση παραγόντων για τις 15 ερωτήσεις που µετρούν την αυτάρκεια στο αρχείο helping2.sav.

ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

Ανάλυση ∆ιακύµανσης ∆ιπλής Κατεύθυνσης

Επιλέγοντας διαδοχικά Analyze Data Reduction Factor ανοίγει το κύριο παράθυρο διαλόγου για την ανάλυση παραγόντων (Οθόνη 8.1, παρακάτω).

Οθόνη 8.1

Το αρχικό παράθυρο διαλόγου

Factor Analysis (=Ανάλυση Παραγόντων)

Η αρχική οθόνη δείχνει αρκετά αθώα: το πλαίσιο µε τις διαθέσιµες εντολές στ’ αριστερά, κάποιο ενεργό (Variables) πλαίσιο στα δεξιά και πέντε πλήκτρα στο κάτω µέρος του παραθύρου που αντιπροσωπεύουν διάφορες επιλογές. Παρότι οι µαθηµατικοί υπολογισµοί της ανάλυσης παραγόντων είναι πολύπλοκοι, αυτή µπορεί να γίνει επικολλώντας απλώς κάποιες µεταβλητές στο ενεργό πλαίσιο, επιλέγοντας περιστροφές Varimax και κάνοντας κλικ στο ΟΚ. Οποιαδήποτε ανάλυση παραγόντων ξεκινάει όντως µε την επικόλληση προσεκτικά επιλεγµένων µεταβλητών στο πλαίσιο Variables. Για την παρουσίαση της ανάλυσης θα επιλέξουµε τις 15 σχετικές µε την αυτάρκεια ερωτήσεις (effic1 µέχρι effic15). Τα πέντε πλήκτρα (στο κάτω µέρος της οθόνης) αντιπροσωπεύουν πολλές διαθέσιµες επιλογές και µπορούν να προσεγγιστούν µε οποιαδήποτε σειρά. Ξεκινάµε µε τα µέτρα περιγραφικής στατιστικής (Descriptives).

Page 148: Notes Spss

Οθόνη 8.2

Το παράθυρο Factor Analysis: Descriptives (=περιγραφικά)

Μ’ αυτή την επιλογή ανοίγει η οθόνη 8.2, όπως φαίνεται παραπάνω. Γι’ αυτό το παράθυρο, όπως και για κάποια άλλα, θα περιγραφούν µόνον οι επιλογές που χρησιµοποιούνται συχνότερα από τους ερευνητές. Η επιλογή Univariate descriptives (=µέτρα µονοµεταβλητής περιγραφικής ανάλυσης) είναι αρκετά χρήσιµη. Τακτοποιεί σε τέσσερις στήλες τα ονόµατα των µεταβλητών, τους µέσους, τις τυπικές αποκλίσεις και τις πάντα χρήσιµες ετικέτες. Κατά τη διάρκεια της ανάλυσης θα αναφερθούµε πολλές φορές σ’ αυτό το διάγραµµα. Η προεπιλογή είναι η Initial solution (=αρχική λύση), η οποία ταξινοµεί τα ονόµατα των µεταβλητών, τις αρχικές κοινές τιµές (προεπιλογή η 1,0), τους παράγοντες, τις ιδιοτιµέs, το ποσοστό και το αθροιστικό ποσοστό που αντιστοιχεί σε κάθε παράγοντα. Η µήτρα συσχετίσεων είναι το σηµείο έναρξης κάθε ανάλυσης παραγόντων. Περιγράφουµε τέσσερα από τα ευρέως χρησιµοποιούµενα στατιστικά µέτρα που αφορούν τη µήτρα συσχετίσεων:

o Coefficients (=συντελεστές): Πρόκειται απλώς για τη µήτρα συσχετίσεων των συµπεριλαµβανόµενων µεταβλητών.

o Significance levels (=επίπεδα σηµαντικότητας): Πρόκειται για τις τιµές p που αφορούν κάθε συσχέτιση και φαίνονται σε ξεχωριστό πίνακα.

o Determinant (=προσδιοριστικός παράγοντας): Πρόκειται για τον προσδιοριστικό παράγοντα της µήτρας συσχέτισης.

o KMO and Bartlett’s test of sphericity (=έλεγχοι σφαιρικότητας ΚΜΟ και Bartlett): Οι έλεγχοι σφαιρικότητας ΚΜΟ και Bartlett είναι και οι δύο έλεγχοι πολυµεταβλητής κανονικότητας και επάρκειας δείγµατος (επάρκεια των µεταβλητών σας για τη διεξαγωγή της ανάλυσης παραγόντων). Ο έλεγχος αυτός είναι προεπιλεγµένος και αποτελεί σηµαντικό στατιστικό µέτρο της ανάλυσης παραγόντων. Περισσότερες λεπτοµέρειες για τη συγκεκριµένη επιλογή υπάρχουν στην ενότητα των αποτελεσµάτων.

Μ’ ένα κλικ στο πλήκτρο Extraction(=εξαγωγή) ανοίγει ένα νέο πλαίσιο διαλόγου (Οθόνη 8.3, παρακάτω), το οποίο αφορά τη µέθοδο εξαγωγής, τα κριτήρια για την επιλογή των παραγόντων, την παρουσίαση των αποτελεσµάτων που σχετίζονται µε την εξαγωγή των παραγόντων και τον προσδιορισµό του αριθµού των επαναλήψεων της διαδικασίας προκειµένου να οδηγηθούµε σε κάποια λύση. Η επιλογή Method (=µέθοδος) της εξαγωγής παραγόντων περιλαµβάνει πολλές υποεπιλογές. Η προεπιλογή είναι η Principal components (=κύρια συστατικά)· ένα κλικ στο πλήκτρο ( ) αποκαλύπτει τις υπόλοιπες έξι:

Page 149: Notes Spss

o Unweighted least squares (=ελάχιστα τετράγωνα µη σταθµισµένα) o Generalized least squares (=γενικευµένα ελάχιστα τετράγωνα) o Maximum likelihood (=µέγιστη πιθανότητα) o Principal-axis factoring (=παραγοντοποίηση κύριου άξονα) o Alpha factoring (=παραγοντοποίηση άλφα) o Image factoring (=παραγοντοποίηση εικόνας)

Η µέθοδος των κύριων συστατικών είναι πάντως η ευρύτερα χρησιµοποιούµενη και οι χωρικοί περιορισµοί απαγορεύουν συζήτηση των άλλων επιλογών.

Οθόνη 8.3

Το παράθυρο Factor Analysis: Extraction (=εξαγωγή)

Το πλαίσιο Analyze (=ανάλυση) σας επιτρέπει να επιλέξετε είτε τη µήτρα συσχετίσεων (Correlation matrix) είτε τη µήτρα συνδιακυµάνσεων (Covariance matrix) ως αρχικό σηµείο για την ανάλυσή σας. Με την εξαγωγή, η επιλογή των παραγόντων προς περιστροφή γίνεται είτε µε κριτήριο η τιµή των ιδιοτιµών να είναι µεγαλύτερη από 1 (προεπιλογή), είτε µε κριτήριο κάποια άλλη τιµή των ιδιοτιµών, είτε µε απλό προσδιορισµό του αριθµού των παραγόντων που θέλετε να επιλέξετε προς περιστροφή. Με την επιλογή Display (=παρουσίαση), είναι προεπιλεγµένη η λύση των µη περιστρεφόµενων παραγόντων που όµως δεν αποκαλύπτει πολλά εκτός κι αν έχετε γνώσεις ανώτερων µαθηµατικών. Οι περισσότεροι ερευνητές µάλλον θα αναιρούσαν τη συγκεκριµένη επιλογή. Μπορείτε επίσης να ζητήσετε ένα Scree plot (παρουσιάζεται στην ενότητα των αποτελεσµάτων). Τέλος, µπορείτε να ορίσετε τον αριθµό των επαναλήψεων που θέλετε για τη σύγκλιση. Οι 25 που είναι η προεπιλογή είναι συνήθως αρκετές.

Μ’ ένα κλικ στο πλήκτρο Rotation (=περιστροφή) περνάτε στο επόµενο βήµα της ανάλυσης παραγόντων, την περιστροφή των παραγόντων για την τελική λύση. Η Οθόνη 8.4 παρουσιάζει τις διαθέσιµες επιλογές. Υπάρχουν τρεις διαφορετικές ορθογώνιες µέθοδοι περιστροφής, η Varimax (η δηµοφιλέστερη µέθοδος, ναι, αλλά αν τη χρησιµοποιήσετε, θα πρέπει να υποστείτε την περιφρόνηση της ελίτ της ανάλυσης παραγόντων), η Equamax, και η Quartimax. Οι διαδικασίες Direct Oblimin και Promax επιτρέπουν τη µη ορθογώνια περιστροφή των επιλεγµένων παραγόντων. Και για τις δυο διαγώνιες παραµέτρους των διαδικασιών (δ και κ) µπορείτε να αφήσετε τις προεπιλεγµένες τιµές. Όπως ειπώθηκε και στην εισαγωγή, µη διανοηθείτε να επιχειρήσετε διαγώνιες περιστροφές εάν δεν έχετε παρακολουθήσει µάθηµα σχετικό µε την ανάλυση παραγόντων.

Page 150: Notes Spss

Εικόνα 8.4

Το παράθυρο Factor Analysis: Rotation (=Ανάλυση Παραγόντων: Περιστροφή)

Για την παρουσίαση, η επιλογή Rotation solution (=λύση περιστροφής) είναι ήδη σηµειωµένη κι αντιπροσωπεύει την ουσία αυτού που η ανάλυση παραγόντων έχει σχεδιαστεί να κάνει. Η ενότητα των αποτελεσµάτων περιλαµβάνει πολλές παραγράφους για την ερµηνεία κάποιας λύσης περιστροφής.

Ξανά πίσω στο κεντρικό πλαίσιο διαλόγου. Μ’ ένα κλικ στο πλήκτρο Scores (τιµές) ανοίγει ένα µικρό πλαίσιο διαλόγου που σας επιτρέπει να αποθηκεύσετε κάποιες τιµές σαν µεταβλητές. Αυτό το παράθυρο δεν φαίνεται αλλά η εντολή Display factor score coefficient matrix (όταν έχει επιλεγεί) θα συµπεριλάβει τη µήτρα των συντελεστών των τιµών των συστατικών στα αποτελέσµατα.

Τέλος, µε ένα κλικ στο πλήκτρο Options ανοίγει ένα πλαίσιο διαλόγου (Οθόνη 8.5, παρακάτω) που δίνει δύο διαφορετικές επιλογές σχετικά µε την παρουσίαση της µήτρας περιστρεµµένων παραγόντων. Η επιλογή Sorted by size (=ταξινοµηµένα κατά µέγεθος) είναι πολύ χρήσιµη. Ταξινοµεί τις µεταβλητές ανάλογα µε το µέγεθος του βάρους που έχουν σε κάθε παράγοντα. Έτσι αν 6 µεταβλητές ανήκουν στο Παράγοντα 1, τα βάρη γι’ αυτές τις µεταβλητές θα ταξινοµηθούν από το µεγαλύτερο στο µικρότερο στην πρώτη στήλη µε τίτλο Παράγοντας 1 (Factor 1). Το ίδιο θα ισχύει και για τις µεταβλητές που ανήκουν στο δεύτερο παράγοντα, στον τρίτο και ούτω καθ’ εξής. Το χαρακτηριστικό αυτό παρουσιάζεται στην ενότητα των αποτελεσµάτων. Στη συνέχεια µπορείτε να εξαφανίσετε τα βάρη που είναι µικρότερα από µια συγκεκριµένη τιµή (αρχικά ορισµένη είναι η 0.10) αν αισθάνεστε ότι είναι ασήµαντα. Στην πραγµατικότητα µπορείτε να το κάνετε ανεξάρτητα από το πώς αισθάνεστε. Οποιοσδήποτε είναι σε θέση να κάνει ανάλυση παραγόντων έχει ήδη ασχοληθεί µε τα Missing Values (=κενά στα δεδοµένα) και θα εκλάµβανε ως προσβολή την υπόνοια ότι θα µπορούσε να καταφύγει σε αυτοµατοποιηµένες διαδικασίες σ’ αυτό το στάδιο της επεξεργασίας.

Page 151: Notes Spss

Εικόνα 8.5

Το παράθυρο Factor Analysis: Options (Ανάλυση Παραγόντων: Επιλογές)

Ακολουθούν οι δύο βήµα προς βήµα περιγραφές. Η πρώτη είναι η απλούστερη µορφή ανάλυσης παραγόντων. Η δεύτερη περιλαµβάνει πολλές από τις επιλογές που περιγράφηκαν παραπάνω.

Για να κάνετε ανάλυση παραγόντων επιλέξτε όλες τις µεταβλητές (από την effic1 ως την effic15). Στη συνέχεια επιλέξτε ως µέθοδο περιστροφής τη varimax και πατήστε OK.

Τα πέντε αυτά βήµατα οδηγούν σε µια ανάλυση παραγόντων που

1. υπολογίζει µια µήτρα συσχετίσεων για τις 15 ερωτήσεις του αρχείου δεδοµένων, 2. εξάγει 15 παράγοντες µε τη µέθοδο των κύριων συστατικών, 3. επιλέγει για περιστροφή όλους τους παράγοντες που έχουν ιδιοτιµή µεγαλύτερη

από 1.0, 4. περιστρέφει τους παράγοντες µε τη λύση Varimax, και 5. εκτυπώνει τη µήτρα µετασχηµατισµού των παραγόντων.

Εναλλακτικά:

Για να κάνετε ανάλυση παραγόντων µε τους δεκαπέντε στοιχεία δραστηριότητας (effic1 ως effic15) ζητήστε Univariate descriptives για τις 15 µεταβλητές, συσχέτιση των Συντελεστών (Coefficients) και τα συνηθισµένα µέτρα κανονικότητας (KMO και Bartlett’s test of sphericity)· ζητήστε τη µέθοδο εξαγωγής των κύριων συστατικών (αρχικά ορισµένη) και το Scree plot· µπείτε στη µέθοδο περιστροφής Varimax και τη διαθέσιµη εντολή Loading plots για τα σκορ των παραγόντων· και ζητήστε τα βάρη να ταξινοµηθούν κατά αριθµό παράγοντα και κατά µέγεθος (Sorted by size).

ΑΠΟΤΕΛΕΣΜΑΤΑ

Ανάλυση Παραγόντων

Ακολουθούν τα αποτελέσµατα της πρώτης περιγραφής. Η µορφή των αποτελεσµάτων στην έκδοση 11.0 για την ανάλυση παραγόντων µπορεί να µοιάζει αρκετά περίπλοκη όταν πρωτοεµφανιστεί στην οθόνη. Το πρόβληµα είναι ότι το SPSS (εξ’ ορισµού) παρουσιάζει τις ετικέτες στα αποτελέσµατα (πολλοί χαρακτήρες) αντί για τα ονόµατα των µεταβλητών (περιορισµένος συνήθως αριθµός χαρακτήρων). Αυτό κάνει έναν πίνακα που θα µπορούσε να χωρέσει σε µισή σελίδα, αν χρησιµοποιούνταν τα ονόµατα, να χρειάζεται πολλές όταν χρησιµοποιούνται οι ετικέτες. Είναι δυνατό να

Page 152: Notes Spss

αποεπιλέξετε τις ετικέτες µε τα ακόλουθα βήµατα Edit, Options, Output Labels. Τα αποτελέσµατα που παρουσιάζονται παρακάτω έχουν παρουσιαστεί µε µια µάλλον απλή µορφή όπου χρησιµοποιούνται ονόµατα µεταβλητών και όχι ετικέτες. Όπως στις περισσότερες περίπλοκες διαδικασίες, τα αποτελέσµατα παρουσιάζονται σε σύνοψη και ελαφρώς µετασχηµατισµένα.

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,871

Approx. Chi-Square 1321,696 df 105

Bartlett's Test of Sphericity

Sig. ,000

Όρος Ορισµός/ Περιγραφή

KAISER-MAYER-OLKIN

Ένα µέτρο του κατά πόσο η κατανοµή των τιµών σας είναι επαρκής για τη διεξαγωγή ανάλυσης παραγόντων. Ο ίδιος ο Kaiser καθορίζει τα επίπεδα ως εξής: µια µέτρηση > 0.9 είναι θαυµάσια, >0.8 είναι αξιέπαινη, >0.7 είναι καλή, >0.6 είναι µέτρια, >0.5 είναι φτωχή και <0.5 είναι απαράδεκτη. Σ’ αυτή την περίπτωση το 0.871 είναι αξιέπαινο, σχεδόν θαυµάσιο.

BARTLETT TEST OF SPHERICITY (=ΕΛΕΓΧΟΣ ΣΦΑΙΡΙΚΟΤΗΤΑΣ ΤΟΥ BARTLETT)

Είναι ένα µέτρο της πολυµεταβλητής κανονικότητας του συνόλου των κατανοµών σας. Εξετάζει επίσης αν η µήτρα συσχέτισης είναι και µήτρα ταύτισης (η ανάλυση παραγόντων θα είναι άνευ σηµασίας µε την ύπαρξη κάποιας µήτρας ταύτισης). Μια τιµή σηµαντικότητας <0,05 δείχνει ότι απ’ αυτά τα δεδοµένα ∆ΕΝ προκύπτει µήτρα ταύτισης (ή «διαφέρουν σηµαντικά από την ταύτιση») κι εποµένως είναι πολυµεταβλητά κοντά στην κανονικότητα και αποδεκτά για ανάλυση παραγόντων.

Page 153: Notes Spss

Communalities

Initial Extraction Effic1 1,000 ,533 Effic2 1,000 ,627 Effic3 1,000 ,550 Effic4 1,000 ,515 Effic5 1,000 ,711 Effic6 1,000 ,702 Effic7 1,000 ,573 Effic8 1,000 ,508 Effic9 1,000 ,612 Effic10 1,000 ,667 Effic11 1,000 ,422 Effic12 1,000 ,632 Effic13 1,000 ,654 Effic14 1,000 ,700 Effic15 1,000 ,490

Extraction Method: Principal Component Analysis.

Total Variance Explained

Initial Eigenvalues

Component Total % of Variance

Cumulative %

1 5,133 34,221 34,221 2 1,682 11,211 45,432 3 1,055 7,030 52,462 4 1,028 6,851 59,313 5 ,885 5,902 65,215 6 ,759 5,057 70,272 7 ,628 4,185 74,457 8 ,624 4,157 78,614 9 ,589 3,927 82,541 10 ,530 3,530 86,072 11 ,494 3,294 89,366 12 ,468 3,120 92,486 13 ,429 2,863 95,349 14 ,398 2,651 98,000 15 ,300 2,000 100,000

Extraction Method: Principal Component Analysis.

Οι δύο στήλες στα αριστερά αναφέρονται µόνον στις µεταβλητές και τις κοινές τιµές. Οι τέσσερις στήλες στα δεξιά αναφέρονται στα συστατικά ή στους παράγοντες. Προσέξτε ότι υπάρχουν τέσσερις παράγοντες µε ιδιοτιµήs µεγαλύτερες από 1,0 και ευθύνονται για το 60% της συνολικής διακύµανσης. Οι παρακάτω ορισµοί αποσαφηνίζουν κάποιους άλλους όρους που παρουσιάζονται σ’ αυτά τα αποτελέσµατα.

Όρος Ορισµός/ Περιγραφή PRINCIPAL-COMPNENT ANALYSIS (=ΑΝΑΛΥΣΗ ΚΥΡΙΩΝ ΣΥΣΤΑΤΙΚΩΝ)

H προεπιλεγµένη µέθοδος εξαγωγής παραγόντων που χρησιµοποιεί το SPSS.

VARIABLE (=ΜΕΤΑΒΛΗΤΗ)

Οι 15 µεταβλητές δραστηριότητας που χρησιµοποιούνται στην ανάλυση παραγόντων αναφέρονται εδώ.

COMMUNALITY (=ΚΟΙΝΗ ΤΙΜΗ)

Η προεπιλεγµένη διαδικασία τοποθετεί σε κάθε µεταβλητή µια κοινή τιµή ίση µε 1,00. Μπορούν να ζητηθούν διαφορετικές κοινές τιµές.

COMPONENT (=ΣΥΣΤΑΤΙΚΟ)

Ο αριθµός κάθε συστατικού (παράγοντα) που εξάγεται. Προσέξτε ότι οι δύο πρώτες στήλες δίνουν πληροφορίες για τις µεταβλητές και οι τέσσερις τελευταίες δίνουν πληροφορίες για τους παράγοντες.

EIGENVALUE Το κοµµάτι της διακύµανσης που εξηγείται από κάθε

Page 154: Notes Spss

(=Ι∆ΙΟΤΙΜΉ) παράγοντα.

% OF VARIENCE (% ΜΕΤΑΒΛΗΤΟΤΗΤΑΣ)

Το ποσοστό της διακύµανσης που εξηγείται από κάθε παράγοντα, η ιδιοτιµή δια το άθροισµα των κοινών τιµών (15 σ’ αυτή την περίπτωση).

CUMULATIVE % (ΑΘΡΟΙΣΤΙΚΟ %)

Το άθροισµα κάθε βήµατος στην προηγούµενη στήλη.

Scree Plot

Component Number

151413121110987654321

Eige

nval

ue6

5

4

3

2

1

0

Αυτό ονοµάζεται Scree plot. Απεικονίζει τις ιδιοτιµέs σ’ ένα επίπεδο δύο συντεταγµένων. Το όνοµά του προέρχεται από τη λέξη scree που περιγράφει τους βράχους που κάθονται γύρω από ένα κοµµάτι γης (ένα λόφο) µετά από κατακρήµνιση του εδάφους. Το scree plot χρησιµοποιείται µερικές φορές για να επιλέξουµε πόσους παράγοντες θα περιστρέψουµε προκειµένου να έχουµε την τελική λύση. Ο παραδοσιακός τρόπος ερµηνείας είναι ότι το κάτω µέρος θα πρέπει να αγνοηθεί και ότι µόνο οι παράγοντες που βρίσκονται στην «πλαγιά» του γραφήµατος (στην αριστερή πλευρά εδώ) θα πρέπει να επιλεγούν και να περιστραφούν. Η προεπιλογή του SPSS είναι να επιλέξει και να περιστρέψει οποιονδήποτε παράγοντα έχει ιδιοτιµή µεγαλύτερη από 1,0. Εφόσον στο συγκεκριµένο παράδειγµα ακολουθούµε την προεπιλεγµένη διαδικασία, έχουν επιλεγεί τέσσερις παράγοντες για περιστροφή· µε βάση το διάγραµµα θα µπορούσαµε να έχουµε επιλέξει δύο παράγοντες. Στη συνέχεια το SPSS θα εκτυπώσει τη δοµή των µη περιστρεµµένων συστατικών. Σπάνια κάτι τέτοιο ενδιαφέρει τον ερευνητή και προκειµένου να εξοικονοµήσουµε χώρο δεν θα το συµπεριλάβουµε εδώ. Ακολουθεί η 4x4 µήτρα µετασχηµατισµού των παραγόντων. Αν πολλαπλασιάσετε τη µήτρα µετασχηµατισµού των παραγόντων (παρακάτω) µε την αρχική (µη περιστρεµµένη) 4x15 µήτρα παραγόντων, το αποτέλεσµα θα είναι η περιστρεµµένη µήτρα παραγόντων.

Component Transformation Matrix

Page 155: Notes Spss

Component 1 2 3 4 1 ,733 ,405 ,419 ,352 2 -,441 ,736 -,195 ,420 3 -,113 -,538 ,017 ,835 4 -,506 ,066 ,859 -,043

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Στη συνέχεια παρουσιάζεται η δοµή των περιστρεµµένων παραγόντων. Προσέξτε ότι λόγω τη επιλογής Sort by size (=ταξινόµηση κατά µέγεθος), τα βάρη των παραγόντων αποθηκεύονται µε δύο τρόπους: (α) Τα µεγαλύτερα βάρη για κάθε παράγοντα επιλέγονται και τοποθετούνται σε ξεχωριστά κουτάκια και (β) µέσα σε κάθε κουτάκι, τα βάρη των παραγόντων ταξινοµούνται από το µεγαλύτερο στο µικρότερο.

Για να βοηθήσουµε στην ερµηνεία της µήτρας περιστρεµµένων παραγόντων, δίπλα από κάθε µεταβλητή δραστηριότητας (effic1 έως effic15) ορίζονται οι τρεις κατηγορίες δραστηριότητας:

[Emot] ∆ραστηριότητα για συναισθηµατική βοήθεια

[Inf] ∆ραστηριότητα για πληροφοριακή βοήθεια

[Instr] ∆ραστηριότητα για πρακτική βοήθεια

[----] Η ανοιχτή ερώτηση

Page 156: Notes Spss

Rotated Component Matrix(a)

Component 1 2 3 4 Effic1

,617 ,197 ,162 ,295

Effic2 ,167 ,738 ,024 ,234

Effic3 ,702 ,181 ,022 ,153

Effic4 ,644 ,088 ,301 -,044

Effic5 ,059 ,828 ,081 ,128

Effic6 ,573 ,089 -,009 ,604

Effic7 ,635 ,345 -,090 ,206

Effic8 ,313 ,596 ,226 -,057

Effic9 -,081 ,418 ,180 ,631

Effic10 ,626 ,133 ,472 -,186

Effic11 ,574 ,047 ,274 ,125

Effic12 ,215 ,064 ,192 ,738

Effic13 ,619 -,100 ,506 ,073

Effic14 ,163 ,045 ,779 ,254

Effic15 ,157 ,251 ,624 ,113

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a Rotation converged in 9 iterations. Η αρχική αντίδραση του ερευνητή που έκανε αυτή την ανάλυση ήταν «πολύ καλή δοµή παραγόντων!» Ο πρώτος παράγοντας αποτελείται κυρίως από µεταβλητές που µετρούν την δραστηριότητα για συναισθηµατική βοήθεια. Στον πρώτο παράγοντα συµπεριλήφθησαν µία ερώτηση από την πρακτική βοήθεια («Σε ποιο βαθµό είχατε την ικανότητα να ακούσετε προσεκτικά ή να εκτιµήσετε την κατάσταση του φίλου σας?») και µία από την πληροφοριακή βοήθεια («Πιστεύετε ότι µπορέσατε να µειώσετε την ένταση και να βοηθήσετε το φίλο σας να ξεχάσει το πρόβληµά του;»). ∆εν είναι δύσκολο να δείτε γιατί τα δύο αυτά στοιχεία θα µπορούσαν να συµπεριληφθούν στον ίδιο παράγοντα σαν δραστηριότητα για συναισθηµατική βοήθεια.

Ο Παράγοντας 2 αποτελείται εξ’ ολοκλήρου από τα υπόλοιπα τρία µέτρα δραστηριότητας για πληροφοριακή βοήθεια. Ο Παράγοντας 4 αποτελείται εξ’ ολοκλήρου από τα υπόλοιπα τρία µέτρα δραστηριότητας για πρακτική βοήθεια. Ο Παράγοντας 3 είναι µάλλον περίεργος και πιθανότατα δεν θα χρησιµοποιηθεί. Συµπεριλαµβάνεται και το µέτρο δραστηριότητας άλλου είδους βοήθειας – ένα µέτρο

Page 157: Notes Spss

για το οποίο η πλειοψηφία των ερωτώµενων δεν απάντησε. Η άλλη µεταβλητή, η effic14, είναι ένα κάπως παράξενο µέτρο που προκάλεσε σύγχυση σε κάποιους ερωτώµενους. Ασχολείται µε τη δραστηριότητα που αφορά τη βοήθεια προς το φίλο ώστε να µην κατηγορεί τον εαυτό του τόσο πολύ. Σε πολλές από τις καταστάσεις που µελετήθηκαν δεν ετίθετο τέτοιο θέµα.

Τέτοιες είναι οι σκέψεις που κάνει ένας ερευνητής όταν επιχειρεί να ερµηνεύσει τα αποτελέσµατα που προκύπτουν από µια ανάλυση παραγόντων. Τα αποτελέσµατα που έχουµε εδώ φαίνεται να οδηγούν σε ένα ερµηνεύσιµο µοτίβο για τα τρία είδη δραστηριότητας: δραστηριότητα για συναισθηµατική βοήθεια, δραστηριότητα για οργανική βοήθεια, και δραστηριότητα για πληροφοριακή βοήθεια. Ο Παράγοντας 3, ο περίεργος, πιθανότατα θα αγνοηθεί. Επειδή οι δύο µεταβλητές που ανήκουν στον Παράγοντα 3 έχουν επίσης βάρη και στους υπόλοιπους τρεις παράγοντες, ο ερευνητής µπορεί να παραλείψει αυτές τις δύο µεταβλητές και να ξανατρέξει την ανάλυση παραγόντων µε 13 µόνο µεταβλητές προκειµένου να δει αν αλλάζουν τα αποτελέσµατα.

Page 158: Notes Spss