Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Анализ количественных признаков

Содержание

Чем мы занимались на предыдущем занятии? Мы вспомнили общепринятые методы описания и представления данных На примере качественных признаков (данных о частотах) познакомились с принципами построения и проверки статистических гипотез Поговорили о вероятностях возможных ошибок, возникающих
Институт общей генетики им. Н.И. Вавилова РАН 3. Анализ количественных признаков Рубанович А.В.Биостатистика Чем мы занимались на предыдущем занятии?  Мы вспомнили общепринятые методы описания Сравнение средних Перейдем, наконец, к задаче о сравнении средних для двух выборок.Например, Сравнение средних На прошлом занятии мы рассмотрели достаточно универсальный способ построения статистических Сравнение средних Распределение Стьюдента очень похоже на нормальное, но имеет большую дисперсию: Сравнение средних  Сравнение выборочного среднего с известным числом Сравнение двух зависимых Упражняемся … 15 октября 2011 г. президент Д. Медведев сообщил, что средняя Сравнение средних в случае зависимых выборок Это простой случай. Вычисляется t-статистикаи вес Сравнение средних При сравнении средних двух независимых выборок возможны 2 ситуации: Сравнение средних При сравнении средних двух независимых выборок возможны 2 ситуации: Упражняемся…  Чему равны стандартные отклонения и ошибки самих оценок (SD и Сравнение средних С помощью    ??? Сравнение дисперсий Р. Фишер построил критерий (односторонний) для сравнения дисперсий (F-тест) и Сравнение дисперсий Рассмотрим набор k выборок:Дисперсионный анализ (ANOVA) – сравнение нескольких выборокНичего, Сравнение нескольких выборок Для нашей учебной базы данных сравним частоты аберраций хромосом Сравнение нескольких выборок Для нашей учебной базы данных сравним частоты аберраций хромосом Важное предупреждениеВ противном случае можно получить совершенно абсурдный результат: В какой фирме Ранговые статистикиДанныеРанги=ТТЕСТ(массив1; массив2; 2; 2)0.0002Другое дело! Хотя и это некорректно…Средние Ранговые критерии=БИНОМРАСП(1;8;0,5;1)1 минус из 8Ранговые критерии являются непараметрическими, т.е. такими, которые не Ранговые критерииДля сравнения 2 независимых выборок используется тест Манна – Уитни,который основан Проверяем нормальность …Строим гистограммы распределений аберраций для больных и здоровых:Какая уж тут Что значит «незначимо»?Допустим мы не обнаружили статистическую значимость различий, о чем с Что значит «незначимо»?⇒  Мощность всего 29% ! На сегодня это все  Проверяйте характер распределения сравниваемых величин. Или хотя
Слайды презентации

Слайд 2 Чем мы занимались на предыдущем занятии?
Мы

Чем мы занимались на предыдущем занятии? Мы вспомнили общепринятые методы описания

вспомнили общепринятые методы описания и представления данных
На примере

качественных признаков (данных о частотах) познакомились с принципами построения и проверки статистических гипотез

Поговорили о вероятностях возможных ошибок, возникающих при использовании всякого статистического теста

При этом мы сознательно не затрагивали ряд традиционных для статистики тем: сравнение средних, критерий Стьюдента и т.д.

Отчасти потому, что вы об этом наверняка наслышаны, но в основном из методических соображений


Слайд 3 Сравнение средних
Перейдем, наконец, к задаче
о сравнении

Сравнение средних Перейдем, наконец, к задаче о сравнении средних для двух

средних для двух выборок.
Например, рост в выборках «М» и

«Ж»

Нулевая гипотеза состоит в предположении, что обе выборки изъяты из одной генеральной совокупности (т.е. различий нет):

Н0:

Дальше надо предложить способ оценить вероятность ошибки I рода


Слайд 4 Сравнение средних
На прошлом занятии мы рассмотрели достаточно

Сравнение средних На прошлом занятии мы рассмотрели достаточно универсальный способ построения

универсальный способ построения статистических критериев: Z – статистика, т.е.
Есть

надежда, что эта величина имеет нормальное распределение со средним 0 и дисперсией 1. Так оно и есть, но только при больших объемах выборок!

, т.е. разность средних, деленная
на стандартное отклонение этой разности.


Слайд 5 Сравнение средних
Распределение Стьюдента очень похоже на нормальное,

Сравнение средних Распределение Стьюдента очень похоже на нормальное, но имеет большую

но имеет большую дисперсию: D(t) = k/(k-2) >

1

При k→∞ становится нормальным

Excel умеет вычислять «хвосты» распределения Стьюдента:

= СТЬЮДРАСП(2; 100; 1)

2 означает, что тест двусторонний

0.024


Слайд 6 Сравнение средних
Сравнение выборочного среднего с известным

Сравнение средних Сравнение выборочного среднего с известным числом Сравнение двух зависимых

числом
Сравнение двух зависимых выборок
Сравнение двух выборочных средних

для независимых выборок

Для каждой особи проводят 2 однотипных замера:
- до и после приема лекарства,
- в этом году и в прошлом году и т.д.

Возможно раного объема

3 варианта использования теста Стьюдента:


Слайд 7 Упражняемся …
15 октября 2011 г. президент Д.

Упражняемся … 15 октября 2011 г. президент Д. Медведев сообщил, что

Медведев сообщил, что средняя продолжительность жизни в РФ составляет

69 лет

В этом месяце в районном морге побывало 100 клиентов, и получена другая оценка: 62±3 года. Отличается ли эта оценка от средней по стране?

= СТЬЮДРАСП((69-62)/3; 100-1; 2)

Р = 0.022

Вывод: нулевая гипотеза отвергается. Вероятность того, что при этом отвергли правильную нулевую гипотезу равна 0.022 (ошибка I рода). Выборка по данным районного морга не соответствует среднему по стране.
Различия статистически значимы.

2 означает, что тест двусторонний

Эта запись означает, что наша величина имеет распределение Стьюдента с n-1 степенями свободы

Никогда не пишите, что различия достоверны!
Достоверно это то, что происходит с вероятностью 1

В данном примере среднее для одной выборки сравнивалось с заранее известной величиной. Это так называемый одновыборочный тест

(мы это уже делали: помните 470 из 1000?)


Слайд 8 Сравнение средних
в случае зависимых выборок
Это простой

Сравнение средних в случае зависимых выборок Это простой случай. Вычисляется t-статистикаи

случай. Вычисляется t-статистика
и вес хвостов распределения Стьюдента с n1+n2-2

степенями свободы.

Можно ни о чем этом не думать и использовать

=ТТЕСТ(массив1; массив2; 2; 1)

2 означает, что тест двусторонний

1 означает, что выборки зависимы

Для независимых выборок все несколько сложнее…


Слайд 9 Сравнение средних
При сравнении средних двух независимых выборок

Сравнение средних При сравнении средних двух независимых выборок возможны 2 ситуации:

возможны 2 ситуации:
σ1 = σ2 ,

т.е. изменчивость данных в обеих выборках одинакова

σ1 ≠ σ2 , т.е. изменчивость данных в выборках неодинакова, и эти различия статистически значимы. Тогда вычисляется объединенная дисперсия для двух выборок. Число степеней свободы тоже модифицируется.

Не будем расписывать, как это делается, а запустим Excel

=ТТЕСТ(массив1; массив2; 2; 2)

2 означает, что тест двусторонний

2 - σ1 = σ2
3 - σ1 ≠ σ2

Надо сказать, что Excel не проверяет статистическую значимость σ1 ≠ σ2 , Более адекватно поступает WinStat



в случае независимых выборок


Слайд 10 Сравнение средних
При сравнении средних двух независимых выборок

Сравнение средних При сравнении средних двух независимых выборок возможны 2 ситуации:

возможны 2 ситуации:
σ1 = σ2 ,

т.е. изменчивость данных в обеих выборках одинакова

σ1 ≠ σ2 , т.е. изменчивость данных в выборках неодинакова, и эти различия статистически значимы. Тогда вычисляется объединенная дисперсия для двух выборок. Число степеней свободы тоже модифицируется.

Не будем расписывать, как это делается, а запустим Excel

=ТТЕСТ(массив1; массив2; 2; 2)

2 означает, что тест двусторонний

2 - σ1 = σ2
3 - σ1 ≠ σ2

Надо сказать, что Excel не проверяет статистическую значимость σ1 ≠ σ2 , Более адекватно поступает WinStat



в случае независимых выборок


Слайд 11 Упражняемся…
Чему равны стандартные отклонения и

Упражняемся…  Чему равны стандартные отклонения и ошибки самих оценок (SD

ошибки самих оценок (SD и SE)?
Средняя оценка по физике

= 3.4. Дисперсия = 0.64

Средняя оценка по физкультуре = 4.6. Дисперсия = 0.44

Можно записать так 3.40±0.08, но не так 3.4±0.08

Считаем t-статистику:

= СТЬЮДРАСП(11,3; 100-2; 2)

Значимо! Р = 10-19


Слайд 12 Сравнение средних
С помощью
???

Сравнение средних С помощью  ???

Слайд 13 Сравнение дисперсий
Р. Фишер построил критерий (односторонний) для

Сравнение дисперсий Р. Фишер построил критерий (односторонний) для сравнения дисперсий (F-тест)

сравнения дисперсий (F-тест) и вычислил функцию распределения соответствующей статистики.
Не

путайте статистику (критерий) Фишера с точным тестом Фишера!

=ФТЕСТ(массив1; массив2)

=FРАСП(1,5;100;100)

В Excel имеется функция, вычисляющая это распределение

Можно также сравнить дисперсии двух выборок

Н0: σ1 = σ2 против Н1: σ1 < σ2


Слайд 14 Сравнение дисперсий
Рассмотрим набор k выборок:
Дисперсионный анализ (ANOVA)

Сравнение дисперсий Рассмотрим набор k выборок:Дисперсионный анализ (ANOVA) – сравнение нескольких

– сравнение нескольких выборок
Ничего, кроме школьной алгебры!
Средняя дисперсия


Дисперсия средних

Межвыборочная изменчивость

Внутривыборочная изменчивость

Факториальная изменчивость

Остаточная изменчивость

(при k = 2 все сведется к критерию Стьюдента)

Н0:

Н1: хотя бы одно среднее отличается


Слайд 15 Сравнение нескольких выборок
Для нашей учебной базы данных

Сравнение нескольких выборок Для нашей учебной базы данных сравним частоты аберраций

сравним частоты аберраций хромосом для носителей различных генотипов по

локусу GSTP1

Упражняемся…


Слайд 16 Сравнение нескольких выборок
Для нашей учебной базы данных

Сравнение нескольких выборок Для нашей учебной базы данных сравним частоты аберраций

сравним частоты аберраций хромосом для носителей различных генотипов по

локусу GSTP1

Упражняемся…

Межгрупповая дисперсия в 12 раз выше, чем внутригрупповая

Можно обойтись пакетом

«Анализ данных» в Excel


Слайд 17 Важное предупреждение
В противном случае можно получить совершенно абсурдный

Важное предупреждениеВ противном случае можно получить совершенно абсурдный результат: В какой

результат:
В какой фирме зарплата выше?
=ТТЕСТ(массив1; массив2; 2; 3)
На

этом примере видно, что в ряде случаев надо сравнивать не сами данные,
а их порядковые ранги (номера в последовательности)

Средние


Слайд 18 Ранговые статистики
Данные
Ранги
=ТТЕСТ(массив1; массив2; 2; 2)
0.0002
Другое дело! Хотя и

Ранговые статистикиДанныеРанги=ТТЕСТ(массив1; массив2; 2; 2)0.0002Другое дело! Хотя и это некорректно…Средние

это некорректно…
Средние


Слайд 19 Ранговые критерии
=БИНОМРАСП(1;8;0,5;1)
1 минус из 8
Ранговые критерии являются непараметрическими,

Ранговые критерии=БИНОМРАСП(1;8;0,5;1)1 минус из 8Ранговые критерии являются непараметрическими, т.е. такими, которые

т.е. такими, которые не зависят от характера распределения данных.

В частности они нечувствительны к выбросам отдельных точек

Самый простой тест – критерий знаков для пары зависимых выборок

0.035

Различия значимы по одностороннему тесту (но не по двустороннему!)

Приводит ли лекарство к увеличению систолического давления?


Слайд 20 Ранговые критерии
Для сравнения 2 независимых выборок используется тест

Ранговые критерииДля сравнения 2 независимых выборок используется тест Манна – Уитни,который

Манна – Уитни,
который основан на вычислении суммы рангов для

каждой из выборок

Как всегда Н0: выборки взяты из одной генеральной совокупности.

Упражняемся …

В нашем файле смотрим сопряженность
заболевания с частотой аберраций

Видим различия средних:

Проверяем значимость различий по Стьюденту:

Различия значимы по Стьюденту (независимо от условия равенства дисперсий )

Но что там с нормальностью?



Слайд 21 Проверяем нормальность …
Строим гистограммы распределений аберраций для больных

Проверяем нормальность …Строим гистограммы распределений аберраций для больных и здоровых:Какая уж

и здоровых:
Какая уж тут нормальностью!
Проверяем значимость различий по Стьюденту:
Различия

значимы по Стьюденту (независимо от условия равенства дисперсий )

Необходимо использовать непараметрический тест Манна-Уитни

Попробуем все это воспроизвести:


Слайд 22 Что значит «незначимо»?
Допустим мы не обнаружили статистическую значимость

Что значит «незначимо»?Допустим мы не обнаружили статистическую значимость различий, о чем

различий, о чем с грустью сообщаем в публикации. Достаточно

ли этого?

НЕТ! Мы должны продемонстрировать, что объемы наших выборок достаточны, чтобы обнаружить эффект, если он существует.

Мощность (чувствительность) используемых тестов должна быть не ниже 80% (тогда упускаем не более 20% открытий)

Только в этом случае незначимые различия можно рассматривать как отрицательный результат


Слайд 23 Что значит «незначимо»?
⇒ Мощность всего 29% !

Что значит «незначимо»?⇒ Мощность всего 29% !    Compare2/


Compare2/ Numerical observations/

Normal distributin/mean value

Тогда по тесту Стьюдента различия незначимы и Р = 0.159

Проверим мощность данного теста

Compare2/ Power/ Comparison of means
Size A - 100 Size B – 100
DETECT a difference 2

Чтобы выйти на мощность 80% объемы выборок должны быть 400 и 400

Compare2/ Sample size/ Means


Допустим, что для 2 выборок имеем:

О чем мы обязаны сообщить в публикации (правда биологи этого почти никогда не делают)

т.е. доля упущенных открытий более 70% !


  • Имя файла: analiz-kolichestvennyh-priznakov.pptx
  • Количество просмотров: 112
  • Количество скачиваний: 1