Математическая статистика, весна 2015: Семинар 7

8
Семинар 7 Критерий χ 2 для таблиц сопряженности, точный критерий Фишера, корреляция Грауэр Л.В., Архипова О.А. Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 1/1

Transcript of Математическая статистика, весна 2015: Семинар 7

Page 1: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Семинар 7Критерий χ2 для таблиц сопряженности, точный критерий

Фишера, корреляция

Грауэр Л.В., Архипова О.А.

Санкт-Петербург, 2015

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 1 / 1

Page 2: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Задание 1. Критерий χ2 для таблиц сопряженности

1. 1000 раз смоделируйте две выборки случайных величин размера N1и N2. В первой выборке вероятность события - p1, во второй p2.Сравните выборки с помощью χ2. Задайте желаемую мощность,найдите N1 и N2, необходимые для ее достижения.2. Смоделируйте три выборки. Задайте параметры, нарушающиеусловия применимости χ2. Что можно сделать в таком случае, чтобывсе-таки применить chi2?

Функции в R:runif(1,0,1) - случайное число из [0,1]data.frame(rbind(cbind(rep(’s1’,N1),sample1),cbind(rep(’s2’,N2),sample2)))- объединение двух выборок в data.frametable(data.frame) - таблица сопряженности по даннымXsq<-chisq.test(table) - χ2 тестXsq$p.valueXsq$expected

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 2 / 1

Page 3: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Задание 1. Пример

p_a_1 = 1/2p_a_2 = 1/3N1=100, N2=1000power = 88,6%

N1=550, N2=550power=100%

N1=100,N2=100power=61,7%

N1=150,N2=50power=47,1%

p_a_1 = 1/2p_a_2 = 1/2p_a_3 = 1/4N1=10, N2=30, N3=30

a bs1 3 7s2 15 15s3 4 26

χ2 применять нельзя. Сложим 1 и 2строчки:

a bs1+s2 18 22s3 4 26

X-squared = 6.5749, df = 1, p-value= 0.01034

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 3 / 1

Page 4: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Задание 2. Критерий χ2 и точный тест Фишера длятаблиц сопряженности

1000 раз:Смоделируйте две выборки из биномиального распределения(вероятности события A p1 и p2 соответственно) для N1 и N2 таких,что1. НЕ выполняется условие применения χ2.2. Условие применения χ2 выполняется.Для каждого случая посчитайте мощность следующих критериев: χ2,χ2 с поправкой Yates, тест Фишера. Для χ2 и χ2 с поправкой на одномграфике постройте распределения статистик критериев привыполнении гипотезы H0 и теоретическое распределение, сравнитеошибку первого рода.

Функции в R:Xsq<-chisq.test(table, correct = F) - χ2 тест без поправки Yates.fisher.test(tab) - тест Фишера

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 4 / 1

Page 5: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Задание 2. Примерχ2

, χ2 with correction, teoretical χ2

p1 = 1/2p2 = 1/3N1=8, N2=10χ2 with correction power = 4,9%χ2 without correction power = 11,2%fisher power - 5,8%

p1 = 1/2p2 = 1/3N1=80, N2=100χ2 with correction power = 53,3%χ2 without correction power = 59,7%fisher power - 57,4%

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 5 / 1

Page 6: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Задание 3. Корреляция.a) 1000 раз сгенерируйте следующие выборки например размера N=20:

с линейной связью (можно с помощью моделирования связныхвыборок, а можно y = ax + b + noise)c НЕлинейной связью

Примените критерии: корреляции Пирсона, Спирмена, Кендалла.Сравните их мощности.b) Сгенерируйте две связанные выборки, где одна шкала - порядковая(например - степень тяжести заболевания от 1 до 6). Примените к нимкритерии, посмотрите на p-value.Не меняя вторую выборку, переобозначьте первую (например, поновым правилам теперь степени тяжести заболевания кодируются неот 1 до 6, а 1, 20, 47 итд ) - примените тесты еще раз, сравнитерезультаты.Функции в R:

cor.test(x,y,method=c(’p’))cor.test(x,y,method=c(’s’))cor.test(x,y,method=c(’k’))

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 6 / 1

Page 7: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Задание 3. Пример.

x=rnorm(20,2,1)y=x+rnorm(20)Pearson: 97,2%Spirman: 92,9%Kendall: 93,4%

x=rnorm(20,2,1)y=(x + rnorm(20))5+2*x +rnorm(20)Pearson: 72,2%Spirman: 96,0%Kendall: 95,7%

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 7 / 1

Page 8: Математическая статистика, весна 2015: Семинар 7

Prepared for Name, Surname

Задание 3. Пример.

x=c(1,2,3,4,5,6)x1=c(1,20,21,300,306,1000)y=cumsum(seq(1,120,20))+rnorm(6,30,1)

Pearson’s product-moment correlation:data: x and yt = 8.3001, df = 4, p-value = 0.001151cor = 0.9721752

data: x1 and yt = 5.2978, df = 4, p-value = 0.006096cor = 0.9355534

Spearman’s rank correlationrho:data: x and yS = 0, p-value = 0.002778rho = 1

data: x1 and yS = 0, p-value = 0.002778rho =1

Грауэр Л.В., Архипова О.А. (ШАД) Семинар 7 Санкт-Петербург, 2015 8 / 1