16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц 14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц 14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страниц 17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц 03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц 30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц 06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц 08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы Если приходят, значит полезное находят.. Наш адрес: |
Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...
|
На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа". |
Логистическая регрессия в медицине и биологии В. Леонов Логистическая регрессия. Введение.
В данной серии статей, на уровне доступном для начинающих, рассмотрены цели и направления метода логистической регрессии. В частности, приводятся пояснения, какие надёжные результаты этого метода могут быть использованы для поставленных целей медицинских и биологических исследований. На примерах реальных медицинских массивов данных, поясняется специфика использования данного метода. Объяснено, что метод имеет много алгоритмов оценки уравнений логистической регрессии, что позволяет назходить для использования во врачебной практике самые удобные и надёжные методы лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков разной природы. Показано, что корректное создание таких массивов, и их анализ, возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики. Логистическая регрессия - "вершина пирамиды". ------------------------------------------------------------- Статистика вербальная и статистика математическая.
Статистика вербальная В начале было Слово Ничего словами N.B.! Перед чтением данной статьи, настоятельно рекомендуем прочитать статью "Логистическая регрессия. Введение"
Любое ЗНАНИЕ содержит в себе результат концентрации опытных ДАННЫХ. Например, обучаясь в медуниверситете, студент получает знания о методиках диагностирования заболеваний и их лечении. Все эти методики представлены в словесном (вербальном) формате, и концентрируют в себе результаты работы с больными пациентами (опытные данные). В том числе содержат информацию об использовании фармпрепаратов, операционных вмешательствах, методах терапии, и т.д. Фактически эти методики есть словесные алгоритмы увеличения вероятности достижения благоприятных исходов лечения (не летальный исход, возврат организма пациента в здоровое состояние, и т.п.). Однако такие вербальные алгоритмы не имеют возможности оценки числовых значений вероятности этих благоприятных исходов. При этом в самих методиках используются количественные показатели (дозы лекарственных препаратов, длительность и интенсивность лечебных процедур, значения показателей полученных при анализе крови, мочи, ЭКГ, и т.д.). Вместе с этими показателями используются во всех методиках и качественные показатели. Например, пол, генотип, тип инфекции во время беременности, наличие эндемического зоба, форма комплекса QRS, и т.д. Именно сочетание различных видов информации о пациенте, а также информации о самом лечении, и позволяют медику определять возможность благоприятного исхода лечения. Например, рассмотрим следующий алгоритм в вербальном формате. Если у больного диагностировано заболевание (далее следует название болезни), а также установлен следующий анамнез (далее следует совокупность сведений о больном и его заболевании), то для лечения пациента следует применить следующую последовательность лечебных действий: (далее следуют перечень и дозы фармпрепаратов, и других лечебных процедур). Подобные алгоритмы на словесном уровне фактически есть результаты обобщения массы историй болезни пациентов. Именно тот факт, что все больные пациенты являются уникальными, единственными по комбинациям своих признаков, описывающих как анамнез, так и текущие анализы в период лечения, данный вербальный алгоритм является по своей сути статистическим усреднением методики лечения. Учитывая индивидуальность каждого пациента, к которому применяется эта методика лечения, очевидно, что столь же индивидуальна будет и оценка возможности благоприятного исхода для каждого конкретного пациента. То есть лечащий врач на вербальном уровне оценит такую вероятность, например, такими выражениями: 1) Без сомнения, исход лечения будет положительным; 2) Очень возможно, что результат лечения будет положительным; 3) Будем надеяться, что состояние пациента улучшится. И так далее. Фактически мы имеем дело с подобием алгоритму логистической регрессии, только на вербальном уровне. В математической же статистике эти вербальные соотношения трансформированы в математические выражения. В этих выражениях, используя числовые и цифровые обозначения анамнестических показателей, результаты различных анализов (крови, ЭКГ, биохимические анализы, и т.д.), получают числовую оценку вероятности благоприятного исхода. Как известно, величина вероятности имеет значения в интервале от 0 до 1.[ 1 ] Если такие оценки вероятности близки к единице, например, р=0,999 , то это фактически есть числовой аналог вербальной оценки в виде выражения "Без сомнения, исход лечения будет положительным". И наоборот, если будет получена оценка вероятности благоприятного исхода р=0,01 , то это будет соответствовать оценке в вербальном формате "Весьма маловероятно, что исход лечения будет благоприятным". Хронологически словесный формат представления любой информации имеет гораздо больший временной отрезок своего развития, нежели все остальные форматы. И уже по одной этой причине позволяет быть более доступным для большинства пользователей. Математический же формат представления информации имеет гораздо более короткий период своего развития. "Первоначально книги по математике вообще не содержали формул в нынешнем виде. Все математические выражения описывались словесно. ... Для создания современной алгебраической символики в XIV – XVII веках потребовались успехи арифметики и алгебры. Большим шагом вперёд в математической символике было введение Ф. Виетом в 1591 году системы обозначения произвольных постоянных величин в виде прописных согласных букв латинского алфавита. Это позволяло записывать алгебраические уравнения с произвольными коэффициентами и оперировать ими. Известная по школьному курсу алгебры теорема Виета, отражающая связь коэффициентов многочлена второй степени и его корней, в авторской формулировке выглядела так: «Если В + D, умноженное на А, минус А в квадрате равно BD, то А равно В и равно D». А уравнение х3 + bx = d во времена Виета записывали так: F cubus + D planum aequatur D solido [61]. И только Рене Декарт в XVII веке ввёл в обращение современный вид основных алгебраических выражений. И на всём протяжении истории математики появление новых математических объектов порождало потребность создавать специальные знаки для передачи информации об этих объектах и выполнения с ними необходимых операций. Так было с логарифмом, степенями числа, интегралом, числами «пи» и «е», тригонометрическими функциями, пределами, комбинаторикой, матрицами и т.д."[ 2 , с. 103] Основное отличие языка математики от вербального формата заключается в более высокой информационной плотности. К тому же в вербальном формате многие слова имеют более одного значения. "...известный математик К. Пирсон вспоминает, что когда в октябре 1900 г. он послал в лондонское Королевское общество для публикации одну из своих статей, в которой для решения биологической проблемы применил статистические методы (эта статья была опубликована в ноябре 1901 г.), то получил решение Совета Королевского общества, обращавшего внимание автора на нежелательность того, чтобы в статьях по биологии содержался какой-либо математический аппарат». И это несмотря на то, что девизом английского Королевского общества был лозунг «Ничего словами», который являлся афористичным выражением основного принципа естествознания: признавать только те выводы, которые подкреплены математическими выводами, либо воспроизводимыми экспериментами. Таким образом, биологии отводилась роль пограничной науки, занимающей промежуточное место между «точными науками», и «гуманитарными науками», которые традиционно в Англии относились к категории «искусств». «В знак протеста К. Пирсон даже намеревался выйти из состава Королевского общества. Однако Ф. Гальтон, которому он сообщил о своём намерении, отсоветовал ему делать это. Тогда К. Пирсон основал в 1901 г. журнал «Биометрика», задачей которого было поощрение использование математических методов в биологии. В статье, написанной специально для первого номера этого журнала, Ф. Гальтон отмечает, что «новая наука не может зависеть от того, как её встречают представители старых наук, и поэтому следует создать специальный журнал по биометрии». Спустя много лет, уже в наше время, возник более узко специализированный журнал "Statistics in Medicine"" [ 3 ] Повышение плотности используемого ресурса присуще всем современным технологиям. К примеру, в металлургии из руды добывают металл, концентрируя его разными способами. Например, выплавляя его с помощью высоких температур. Либо используя жидкостные технологии, электрохимию, и т.д. А для разделения и концентрации изотопов урана используют следующие методы: И этот перечень можно продолжать многими аналогиями. В нём можно перечислить нефть, бензин, газ, фармпродукцию, и т.д. В зависимости от технологии концентрации используемого ресурса, получаемые при этом результаты могут весьма существенно отличаться друг от друга. Наиболее показательно это на примере углерода, содержание которого в человеческом теле составляет 23%. В природе углерод встречается в виде горючих ископаемых, а также в виде минералов - алмаза и графита. Эти две аллотропные модификации углерода весьма существенно отличаются друг от друга, как по плотности, так и по свойствам. Плотность алмаза при 20°С равна 3,51 г/см3, тогда как у графита плотность равна 2,26 г/см3. Алмаз является самым твёрдым из всех найденных в природе веществ. Тогда как графит очень мягок. По электрическим свойствам алмаз - диэлектрик, а графит - проводит электрический ток. В 1961 г. в СССР был разработан метод получения искусственных алмазов, используя для этого технологию высокого давления. Помимо этих двух основных модификаций углерода в настоящее время известно немало и других углеродных структур, отличающихся друг от друга плотностью и структурой. Например, карбин, фуллерены, фуллерит, графен, лонсдейлит, углеродные нановолокна, углеродные нанотрубки, и т.д. И у всех этих модификаций углерода весьма существенные различия свойств. Таким образом, повышение плотности используемого ресурса приводит к получению материалов с новыми фазами, обладающими принципиально новыми свойствами. В полной мере это относится и к информационным ресурсам. Одной из наиболее продуктивных технологий повышения плотности информации является использование современных методов статистического анализа, в частности, метода логистической регрессии. Многие учёные из Франции, Германии, Испании и Италии, использовали в своих исследованиях не только результаты анализа по стандартным парным методам анализа, но также и многомерные методы анализа, в т.ч. и по уравнениям логистической регрессии. Подумав как следует, мысль излагай, Всякая технология по мере своего развития и усложнения использует в себе всё более широкий спектр как материальных, так и информационных ресурсов. Например, в древности огонь и дым от костров подтверждал появление войск противника. Столь же несложной была и технология передачи информации при помощи барабанов. Затем появились разные виды телеграфов. Так в 1839 г. был построен семафорный телеграф длиной 1200 км, который соединил Петербург и Варшаву. Эта линия состояла из 149 станций, каждая высотой в 20 метров. На рисунке приведено изображение такой станции. Сигнал из Петербурга в Варшаву проходил за 15 минут. [ 2 ]
В 20-м веке доминирующими стали электрические телеграфы, а затем и телефоны. Сегодня с помощью мобильных телефонов и оптоволоконных линий реализованы высокоскоростные технологии передачи информации. Но для реализации этих технологий требуется использование очень большого набора других технологий. То есть усложнение любой технологии приводит к обязательному расширению её "фундамента". Например, для работы мобильных телефонов требуется получение монокристаллического кремния, из которого делают интегральные микросхемы (чипы) как для самих телефонов, так и для приёмо-передающих сетей. Далее необходима технология создания оптоволоконных линий из кварцевых нитей, технология приёма-передачи сигналов через искусственные спутники Земли, технология программирования, и т.д. При этом весьма важным моментом является тот факт, что в этом случае основная технология - "вершина пирамиды", работает лишь в тех в условиях, когда в это же самое время работают и все "фундаментальные" технологии. Например, во время разговора по мобильному телефону работают источник питания (электрический аккумулятор), интегральные микросхемы, операционная система, излучатель и приёмник сверхвысоких радиочастот, и т.д. В тех случаях, когда речь идёт о промышленных технологиях, каждая новая конструкция, алгоритм, проходит проверку, для того, чтобы новая технология и новое изделие обеспечивали конкретные рабочие параметры. В медицине новые технологии на последних этапах проходят проверку на пациентах. Не менее важно и то, что либо сама идея новой медицинской технологии, либо её вариант, есть результат концентрации опытных данных, также полученных на отдельных выборках пациентов. То есть "фундаментом" новых идей и технологий, по сути, являются статистические данные наблюдений за результатами предыдущих технологических версий. При этом результаты таких наблюдений не обязательно подвергаются процедурам статистического анализа. Высокая квалификация и опыт обобщения результатов могут приводить к рождению новых технологий. Как правило, такие новшества также требуют для своей реализации участия и специалистов из других областей знания. Например, химиков, биохимиков, инженеров, экономистов, и т.д. В этом случае каждый из таких специалистов вносит свой вклад в новую технологию. Очевидно, что весомость, значимость этих вкладов, различна. Если обратиться к уравнениям логистической регрессии, то и в них "вес" предикторов (признаков объясняющих, предсказывающих) различен. Напомним, что для ранжирования вкладов предикторов в оценку вероятности исхода, необходимо упорядочить по уменьшению модулей стандартизованных коэффициентов уравнения. [ 4 ] И тогда предиктор с максимальным значением этого модуля будет вносить максимальный вклад в оценку вероятности интересующего исследователя исхода лечения. Весьма важным моментом в любой новой методике является её понимание и осмысление практикующим специалистом. Поскольку в случае непонимания полезности механизма данной технологии снижается вероятность её использования, а также возрастает вероятность допущения ошибок, в принципе могущих привести к весьма нежелательным для пациентов последствиям. Понимание и осмысление излагаемых новых методик и технологий определяется двумя основными аспектами. Во-первых, уровнем описания этой новой методики. Во-вторых, уровнем знаний и практических навыков у читателя этой новой методики. Если исходить из того, что большинство читателей новых методик владеют знаниями более низкого уровня, нежели уровень этой новой методики, то именно этот факт и следует учитывать. Ведь всякая сложная методика имеет в своём основании подмножество более простых технологий, и поэтому описание этих базовых (фундаментальных) методик облегчит понимание более сложной методики. Рассмотрим наиболее простой вариант оценки уравнения логистической регрессии для случая двух альтернативных исходов. То есть оценка уравнения производится с использованием выборки наблюдений по двум сравниваемым группам. При этом с помощью полученного уравнения оценивается вероятность благоприятного исхода (выздоровление пациента). Поскольку рассматриваются только 2 исхода, то сумма вероятностей этих двух исходов равна 1. Обозначим через P1 вероятность первого исхода - выздоровления. Тогда вероятность второго альтернативного исхода P2 =1- P1. Напомним, что вероятность P1 для конкретного пациента вычисляется с помощью следующего выражения: (1), где величина BETA вычисляется с помощью полученного уравнения логистической регрессии: , (2) где a0 - свободный член (Intercept), a1, a2, ... ak - коэффициенты уравнения, x1, x2, ... xk - отобранные алгоритмом признаки (предикторы), у которых соответствующие коэффициенты a0, a1 , a2 , ... , ak статистически значимы. Для конкретного i-того пациента в выражении (2) подставляются те значения предикторов, которые зафиксированы у него. Например, уравнение для оценки ВЕТА имеет следующий вид: (3) Если у конкретного пациента эти предикторы имеют значения x1 = 1, x2 = 0,5 , x3 = 0,1 , то величина параметра BETA будет равна: 1,5 + 2*1 - 1*0,5 - 3*0,1 = 1,5 + 2- 0,5 - 0,3 = 3,5 - 0,8 = 2,7. Соответственно вероятность P1 будет равна: (4) Поскольку в качестве предикторов в уравнении используются как количественные, так и качественные признаки, то для осмысления получаемых уравнений следует вначале провести анализ более простых связей. В частности, парных взаимосвязей всех этих признаков. Этот нюанс важен ещё и потому, что все сложные методы многомерного статистического анализа, в т.ч. и метод логистической регрессии, выдают в результате не единственное уникальное решение, а некоторый набор, например, набор уравнений логистической регрессии. И для понимания и сравнения этих уравнений как раз и полезны все анализируемые парные взаимосвязи. Введём обозначения используемых признаков. x1 , x2 , ... xi , ... xm - подмножество количественных потенциальных предикторов, т.е. число таких предикторов равно m; z1 , z2 , ... zj , ... zk - подмножество качественных потенциальных предикторов, т.е. число таких предикторов равно k. В этом случае для понимания структуры и особенностей получаемого при этом набора уравнений логит-регрессии следует обязательно провести статистический анализ следующих парных взаимосвязей: Y ~ x1 ; Y ~ x2 ; ... Y ~ xi ; ... Y ~ xm , т.е. m парных связей между зависимой переменной Y и каждым количественным признаком; Y ~ z1 ; Y ~ z2 ; ... Y ~ zj ; ... Y ~ zk , т.е. k парных связей между зависимой переменной Y и каждым качественным признаком; Для количественных признаков необходимо оценить следующие парные взаимосвязи: x1 ~ x2; x1 ~ x3; x1 ~ x4; ... x1 ~ xm ; x2 ~ x3; x2 ~ x4; ... x2 ~ xm ; .......... ; xm-1 ~ xm . Общее количество таких парных взаимосвязей между количественными признаками будет равно Nx= m*(m-1)/2. Для качественных признаков необходимо оценить следующие парные взаимосвязи: z1 ~ z2; z1 ~ z3; z1 ~ z4; ... z1 ~ zk ; z2 ~ z 3; z2 ~ z4; ... z2 ~ zk ; .......... ; zk-1 ~ xk . Общее количество таких парных взаимосвязей между качественными признаками будет равно Nz= k*(k-1)/2. И последние парные взаимосвязи, которые также следует исследовать, это связи между одним количественным и одним качественным признаком: x1 ~ z1 ; x1 ~ z2 ; ... x1 ~ zj ; ... x1 ~ zk ; x2 ~ z1 ; x2 ~ z2 ; ... x2 ~ zj ; ... x2 ~ zk ; ........ xm ~ z1 ; xm ~ z2 ; ... xm ~ zj ; ... xm ~ zk ; Общее количество таких парных взаимосвязей между одним качественным и одним количественным признаком будет равно Nxz= k*m. Предположим, что в анализе используются 10 количественных переменных (x1 , x2 , ... x10) и 10 качественных переменных (z1 , z2 , ... z10). В этом случае необходимо провести статистический анализ следующего количества парных взаимосвязей. Для количественных признаков: Nx= 10*(10-1)/2=90/2=45. Для качественных признаков: Nz= 10*(10-1)/2=90/2=45. Для пар Y ~ xi : 1*10=10. Для пар Y ~ zj: 1*10=10. Для пар xi ~ zj: 10*10=100. Итак, только данные парные взаимосвязи уже составляют количество 45+45+10+10+100=210. Однако помимо анализа парных взаимосвязей по всему массиву данных не меньшую ценность представляет и анализ аналогичных связей в отдельных подгруппах Y=1 (благоприятный исход) и Y=2 (неблагоприятный исход). В этом случае количество этих дополнительных взаимосвязей составит 2*(45+45+100)=2*190=380. Таким образом, с учётом парных взаимосвязей по всему массиву получаем 210+380=590 анализируемых парных взаимосвязей.
Почему важно провести такие анализы сначала по всему массиву данных, а затем раздельно по группам сравнения? При проведении такого анализа в трёх выборках (1-я выборка - весь массив наблюдений с двумя исходами Y=1 и Y=2; 2-я выборка - пациенты с исходом Y=1, 3-я выборка - пациенты с исходом Y=2) для каждой пары признаков, например, для двух количественных признаков x4 и x7 , получаем 3 оценки интенсивности этой взаимосвязи. Так как для пары количественных признаков эта взаимосвязь может быть как линейной, так и нелинейной, то в этом случае разумно одновременно вычислять для каждой пары из этих 3-х выборок коэффициент линейной корреляции Пирсона, и ранговый коэффициент корреляции Спирмена. Таким образом, для одной пары количественных признаков по 3-м выборкам получаем 6 коэффициентов корреляции. Сопоставление между собой этих 6 коэффициентов позволяет получить весьма ценную информацию. Например, для одной и той же пары количественных признаков x4 и x7 получены следующие значения коэффициентов корреляции Пирсона: r1+2 = 0,14 (р=0,12), r1 = 0,54 (р=0,03), r2 = -0,41 (р=0,02). Здесь нижние индексы 1+1, 1 и 2 означают разные выборки: 1+2 - общая выборка с двумя исходами Y=1 и Y=2; 1 - выборка с исходом Y=1; 2 - выборка с исходом Y=2. А выражения (р=...) содержат уровень статистической значимости для конкретного коэффициента корреляции. Итак, получается, что для общей выборки с двумя исходами Y=1+2 коэффициент корреляции статистически не значим (р=0,12). Для выборки с Y=1 имеем положительную (r1 = 0,54 ) статистически значимую корреляцию. А для третьей выборки с Y=2 имеем отрицательную статистически значимую корреляцию. То есть для выборки с Y=1 с увеличением признака x4 увеличивается и признак x7 . А для выборки с Y=2 увеличение одного признака приводит к уменьшению другого. И наоборот. Когда же две эти выборки объединяются в одну, то эти две противоположные связи компенсируют друг друга. И в результате коэффициент корреляции становится статистически не значимым. При сравнении подобных 3-х коэффициентов корреляции могут быть и иные ситуации. Например, получены три статистически значимых коэффициента корреляции: r1+2 = 0,46; r1 = 0,52; r2 = 0,48. Это говорит о том, что изменение исхода от Y=1 до Y=2 практически не влияет на интенсивность корреляции этих двух признаков. Сопоставление же коэффициентов корреляции Пирсона с коэффициентами корреляции Спирмена будет говорить о том, приводит ли изменение исхода от Y=1 до Y=2 к изменению характера взаимосвязи. Например, может наблюдаться переход от линейной взаимосвязи к нелинейной, или наоборот. Напомним, что сравнение коэффициентов корреляции можно производить, проверяя статистические гипотезы типа [5]:
При этом проверка подобных гипотез возможна не только для сравнения двух генеральных (популяционных) коэффициентов корреляции, но и для большего их количества. Аналогичные сопоставления целесообразно проводить и для остальных парных сочетаний. Например, для двух качественных признаков с помощью анализа таблицы сопряжённости оценивается показатель интенсивности связи V-Крамера, который, как и коэффициент корреляции, изменяется в интервале от 0 до 1.[ 6 ] При проведении такого сравнения, например, по результатам анализа трёх таблиц сопряжённости, следует оценить не только показатели интенсивности связи V-Крамера, но также исследовать и структуры этих связей. Так как статистически значимая взаимосвязь пары качественных признаков не "размазана" равномерно по всем клеткам таблицы сопряжённости, а сконцентрирована в отдельных клетках таблицы сопряжённости. При этом в данных клетках связь может быть как отрицательной, так положительной. И при переходе от подгруппы наблюдений с Y=1 к подгруппе наблюдений с Y=2 структура этой связи может измениться весьма кардинально. Обсуждение данной специфики приведено в наших статьях о таблицах сопряжённости по адресам . Весьма важно также проводить сравнение параметров http://www.biometrica-tomsk.ru/freq.htm http://www.biometrica-tomsk.ru/freq1.htm http://www.biometrica-tomsk.ru/freq2.htm распределений в группах с двумя исходами. Поскольку для таких сравнений есть параметрические и непараметрические методы анализа, то вначале следует провести проверку гипотез нормальности распределений в каждой из двух сравниваемых групп по каждому количественному признаку. И для сравнения параметров целесообразно использовать не один критерий, а некоторый набор статистических методов. Например, классический дисперсионный анализ (ANOVA), и непараметрические критерии Краскела-Валлиса, Вилкоксона, Ван дер Вардена, Манна-Уитни, медианный критерий. Итак, используя перечисленные выше методы анализа в реальных исследованиях, содержащих число переменных от 2-3-х десятков до 100-150, получаем достаточно большой объём информации. В качестве образцов приведём объёмы результатов, полученных при анализе реальных данных, собранных несколькими исследователями из Казахстана. Массив 1 содержал более 1661 наблюдение, и целью его анализа было изучение особенностей распределения генотипов вируса папилломы человека по регионам республики. Количество страниц с результатами различных видов статистического анализа, составило 2820. Массив 2 содержал 311 наблюдений из 73 количественных и 61 качественного признака. Ниже в таблице приведены фрагменты перечня анализируемых признаков.
Целью анализа данного массива было исследование специфики патологий, их связей с различными показателями, и оценка возможности коррекции данных патологий с помощью моделей логистической регрессии. Количество страниц с результатами различных видов статистического анализа, составило 20247. Массив 3 содержал 274 наблюдения из 13 количественных и 24 качественных признаков. Целью исследования было изучение клинико-лабораторных особенностей течения внутриутробной инфекции у новорожденных с малой массой тела, и разработка эффективных методов лечения внутриутробных инфекций у детей с малой массой тела. Ниже в таблице приведены фрагменты перечня анализируемых признаков.
Количество страниц с результатами различных видов статистического анализа, составило 7582. Массив 4 содержал 2257 наблюдений из 85 количественных и 4 качественных признаков. Целью исследования было изучение распространённости эндемического зоба, определение наличия, степени тяжести и генеза зобной эндемии в нефтегазоносных районах и разработка рекомендаций по профилактике йододефицитных состояний. Ниже в таблице приведены фрагменты перечня анализируемых признаков.
Количество страниц с результатами различных видов статистического анализа, составило 32354. Массив 5 содержал 1212 наблюдений из 13 количественных и 124 качественных признаков. Целью исследования была оценка качества медицинской помощи больным с острым коронарным синдромом в учреждениях области и областного центра, а также разработка методов диагностики, профилактики и лечения данного заболевания. Ниже в таблице приведены фрагменты перечня анализируемых признаков.
Количество страниц с результатами различных видов статистического анализа, составило 35501. Массив 6 содержал 70 наблюдений из 12 количественных и 9 качественных признаков. Целью исследования было изучение особенности клинико-иммунологических показателей новорожденных, инфицированных вирусами группы герпес. Количество страниц с результатами различных видов статистического анализа, составило 3610. Наличие результатов анализа объёмом от нескольких тысяч до нескольких десятков тысяч страниц способно вызывать у исследователя двойственную реакцию. С одной стороны такой объём результатов требует времени и усилий для их изучения. Однако с другой стороны больший объём содержит и большее количество тех результатов, которые как раз и нужны исследователю для достижения поставленной цели исследования. Очень важным аспектом работы с такими объёмами результатов является и то, что никто кроме самого исследователя не может произвести из этих тысяч страниц отбор самых важных и ценных результатов. То есть концентрация получаемых результатов доступна только для исследователя. Положительным моментом работы с такими объёмами результатов является и то, что немалая их часть требует для ознакомления с ними лишь однократное, или двукратное знакомство. Например, ниже обсуждается построение большого количества графиков, которые позволяют оценить как качество подготовленного для анализа массива данных, так и наличие/отсутствие изучаемых взаимосвязей. Такие графики составляют порядка 50% от всего объёма результатов, и при работе с ними чаще всего достаточно лишь однократное их изучение. Ниже приведём 2 примера с уравнениями логистической регрессии, и отдельными фрагментами результатов из "фундаментального" этапа. Уравнения получены при анализе упомянутого выше массива 4 из Казахстана, а также массива данных собранных исследователем из Читы. Пример 1. Целью исследования было изучение причин преждевременных родов, плацентарной недостаточности, гипоксии плода, задержки роста плода и послеродовых осложнений у рожениц. При сравнении двух групп наблюдений было получено следующее уравнение:
Standard Wald Standardized Parameter DF Estimate Error Chi-Square Pr > ChiSq Estimate VAR3 1 0.2088 0.0517 16.2935 <.0001 0.5318 VAR32 1 -0.0307 0.0147 4.3430 0.0372 -0.2880 VAR35 1 -0.4029 0.0733 30.2021 <.0001 -0.9343 VAR37 1 0.1974 0.0289 46.5408 <.0001 1.2496 VAR38 1 0.7677 0.2097 13.4011 0.0003 0.4051 VAR40 1 -0.3164 0.0710 19.8460 <.0001 -0.5972 VAR42 1 0.4354 0.1238 12.3769 0.0004 0.5516 VAR39 1 -0.0545 0.0118 21.3628 <.0001 -0.6663
В первой подгруппе было 103 наблюдения, во второй - 212. Показатель конкордации [4] для данного уравнения составил 96,5%. При этом среднее значение параметра BETA для первой подгруппы было 2,593, а для второй подгруппы равнялось -3,948. Выше в таблице с параметрами уравнения выделена строка с предиктором VAR37, имеющим максимальное значение модуля стандартизованного коэффициента. Сравнение параметров распределений этого признака в двух подгруппах, дало следующий результат: Группа N Среднее VAR37 --------------------------------------- Группа 2 212 26,820755 Группа 1 103 39,135922
Как видим, параметры двух подгрупп сравнения различаются статистически значимо. И разница между групповыми средними достаточно велика. Пример 2. Приведённое ниже уравнение логистической регрессии получено при анализе описанного выше массива 4 из 2257 наблюдений. При сравнении двух групп наблюдений было получено следующее уравнение: Standard Wald Standardized Parameter DF Estimate Error Chi-Square Pr > ChiSq Estimate
A 1 2.6554 0.1934 188.4520 <.0001 1.3850 B 1 -2.6561 0.1851 205.8242 <.0001 -3.5245 C 1 1.9503 0.4333 20.2572 <.0001 0.5360 В первой подгруппе было 1293 наблюдения, во второй - 962. Показатель конкордации [4] для данного уравнения составил 98,7%. При этом среднее значение параметра BETA для первой подгруппы было 4,999, а для второй подгруппы равнялось -4,567. Выше в таблице с параметрами уравнения выделена строка с предиктором B, имеющим максимальное значение модуля стандартизованного коэффициента. Сравнение параметров распределений этого признака в двух подгруппах, дало следующий результат: Группа N Среднее B --------------------------------------- Группа 2 964 6,587604 Группа 1 1293 3,193271
Как видим, параметры двух подгрупп сравнения различаются статистически значимо. И разница между групповыми средними достаточно велика.
Без известного самостоятельного труда Важнейшим моментом проведения всех упомянутых выше видов статистического анализа является предварительная проверка качества подготовленного массива данных. Подобно тому, как перед проведением полостной операции производится детальный анализ состояния организма пациента и проверка состояния аппаратуры, так и перед проведением статистического анализа необходимо проверить корректность собранного массива данных. Вначале следует найти для каждого признака минимальное и максимальное значение. И проверить, нет ли в них величин, которые выходят за допустимые для каждого признака пределы. Например, качественный признак Zj описывает 2 пола: М и Ж, используя обозначения 1 для градации М, и 2 для градации Ж. Однако при проверке оказалось, что для этого признака минимум равен 1, а максимум равен 3. То есть в каком-то наблюдении (или в нескольких наблюдениях) введено ошибочное значение. Другой пример для количественного признака Xi . Данный признак содержит значения систолического артериального давления. При проверке было установлено, что минимальное значение этого признака равно 10. Очевидно, что это тоже ошибка, которую следует найти и исправить. Весьма эффективно оценку качества подготовленного массива данных производить с помощью графики. В частности, для всех парных сочетаний признаков, как количественных, так и качественных, целесообразно построить двумерные диаграммы рассеяния. Например, есть 10 количественных (xi ) и 10 качественных признаков (zj ), и ещё один качественный признак Y с двумя градациями исходов лечения. То есть всего 21 признак. В этом случае число парных диаграмм рассеяния будет равно 21*(21-1)/2 = 21*10=210. Другой, очень полезный подход к оценке, как качества собранного массива данных, так и оценке взаимосвязей между парами количественных признаков, является построение двумерных диаграмм рассеяния с идентификацией каждой точки (наблюдения) градациями качественных признаков. При этом целесообразно для каждой пары количественных признаков делать 2 графика. Один график делается с совмещёнными градациями качественного признака. На этом графике идентификация принадлежности данного наблюдения к одной из групп (градаций качественного признака) обозначается различным цветом, или различными точечными фигурками (квадратики, треугольники, кружочки, и т.п.). Выбор этих вариантов определяется возможностями используемого пакета, в котором производится анализ данных. А другой график делается раздельно для каждой градации качественного признака. Ниже на графиках представлены примеры таких диаграмм. Данные графики получены при анализе упомянутых выше 6 массивов данных собранных несколькими исследователями из Западно-Казахстанского государственного медицинского университета им. М. Оспанова (г. Актобе, Казахстан), а также по одному массиву собранному исследователем из Москвы. Просмотр тысяч страниц с такими графиками, построенными для всех упомянутых выше массивов данных, показал наличие достаточно большого количества аномальных, ошибочных наблюдений. На приведённом выше графике видны 2 точки, которые далеко расположены от основного скопления наблюдений, и имеют координаты по оси А во много раз больше значений в основной массе наблюдений. Отметим, что наличие именно 2-х точек на этом графике не означает, что имеется всего лишь 2 аномальных наблюдения. Их количество может быть и больше, поскольку одной и той же точкой на графике могут быть обозначены несколько идентичных наблюдений. На следующем графике видны аномальные наблюдения, которые имеют многократно большие значения как по оси F, так и по оси E. Наличие таких аномалий приводит к смещению значений таких основных параметров распределений, как среднее и дисперсия. И поскольку эти два параметра используются практически по всех статистических методах, то данные смещения приводят к существенному искажению результатов используемых статистических методов (критериев). Например, при сравнении групповых средних отвергается гипотеза равенства этих средних. Тогда как после корректировки в массиве данных найденных ошибочных, аномальных значений, результатом сравнения групповых средних будет принятие гипотезы их равенства. Наличие таких ошибочных, аномальных значений может приводить и к невозможности использования таких параметрических критериев, как t-критерий Стьюдента, и, соответственно, отвержению использования классического дисперсионного анализа ANOVA. Поскольку наличие аномального значения по конкретной переменной приводит к отвержению гипотезы о нормальности распределения. Кроме того, при проверке второго условия использования двух упомянутых методов - равенства групповых дисперсий, также произойдёт отвержение гипотезы их равенства. На приведённом выше графике видна одна точка (наблюдение) очень сильно удалённая по оси К. При этом расположенные слева наблюдения показывают наличие положительной корреляции между признаками L и K. Ниже представлен график с двумерной диаграммой рассеяния этих же признаков L и K, однако все наблюдения идентифицированы принадлежностью к одной из двух подгрупп признака С. Видно, что расположенное справа аномальное наблюдение принадлежит подгруппе С=2. Ниже на графике представлена диаграмма рассеяния наблюдений из верхнего графика, полученная после удаления аномального наблюдения. В верхней части приведена величина коэффициента корреляции Пирсона, которая равна 0,8257. Выше на графике представлена диаграмма рассеяния наблюдений из верхнего графика, полученная после удаления аномального наблюдения, с идентификацией наблюдений номером подгруппы по группирующему признаку С. Видно, что области распределения обеих подгрупп наблюдений перекрываются, и имеют примерно одинаковые площади. То есть групповые средние по обеим подгруппам близки по величинам. Выше на графике показано распределение наблюдений двух подгрупп А=1 и А=2. На рисунке видно, что обе подгруппы имеют примерно одинаковые средние значения по признаку W. Тогда как по признаку V различие средних в этих двух подгруппах равно примерно 15 единицам. То есть переход от подгруппы А=1 к подгруппе А=2 приводит к смещению значений по признаку V, а не по признаку W. Также отчётливо видно, что при переходе от подгруппы А=1 к подгруппе А=2 интенсивность корреляционной взаимосвязи практически не меняется. Оба корреляционных эллипса имеют фактически один и тот же вид. Также близки в этих двух подгруппах по величинам и дисперсии. Об этом говорит примерно одинаковые интервалы рассеяния обеих подгрупп по каждому из признаков V и W. Поскольку области распределения наблюдений данных двух подгрупп не перекрываются, то это означает, что подгруппы А=1 и А=2 дискретны по данным двум признакам. На графике, представленном выше наглядно видно, что переход от подгруппы В=1 к подгруппе В=2 приводит к увеличению значений по обоим признакам S и P. Однако и в этом случае интенсивность корреляционной взаимосвязи остаётся примерно одинаковой. Не менее важным является и тот факт, что ряд наблюдений подгрупп В=1 и В=2 перекрываются друг с другом. Это наблюдается вблизи значения Р=120 и S=80. Такая ситуация означает, что две подгруппы В=1 и В=2 по сочетанию признаков S и P являются не дискретными, а плавно переходят друг в друга. Выше на графике видно наличие трёх аномальных наблюдений. На графике ниже показано, что эти наблюдения принадлежат двум разным подгруппам. Рассмотренные выше графики весьма полезны. Во-первых, на них очень наглядно видны аномальные, ошибочно введённые значения. Другая ценность таких графиков заключается в наглядном представлении имеющихся зависимостей. Например, корреляции между двумя количественными признаками отображается в виде корреляционного эллипса. Если в группах сравнения есть различие по центральным параметрам (среднее, медиана), то и здесь наглядно виден сдвиг точек групп сравнения относительно друг друга. Также весьма наглядно отображается и сходство или различие степени вариабельности признаков в сравниваемых группах наблюдений. Если в подобных графиках обнаруживаются аномальные наблюдения, то их следует скорректировать. Для этого вначале необходимо установить, у какого пациента ошибочно введено значение данного признака. Если это аномальное значение данного признака значительно больше допустимой величины, то следует отсортировать наблюдения по данному признаку, указав сортировку по убыванию. Такие сортировки наблюдений в массиве данных имеются во всех пакетах анализа (EXCEL, SAS, SPSS, PSPP, STADIA, STATGRAPHICS Plus, STATA, R, JMP, SYSTAT, STATISTICA, и т.д.). После установления аномального наблюдения, следует исправить ошибочное значение данного признака. Естественно, что для этого необходимо вначале установить истинное значение этого признака. Если же по какой-то причине это невозможно сделать, то следует просто удалить это ошибочное значение. То есть оставить при этом данную клетку пустой (Missing Data). Отметим, что игнорирование такой корректировки приводит к ошибочным выводам, как для парных взаимосвязей, так и в оценках уравнений логистической регрессии. Что в конечном итоге способно оказать негативное воздействие на конкретных пациентов, к которым будут применяться выводы подобных ошибочных уравнений. Если же аномальное значение признака имеет величину гораздо меньшее допустимого минимума, то в этом случае следует произвести сортировку наблюдений по данному признаку, указав опцию "По возрастанию". В этом случае наблюдение с данной аномалией будет после сортировки в первой строке таблицы массива данных. Для возврата порядка расположения строк в таблице к исходному порядку следует обязательно в первом столбце вводить признак "Номер наблюдения" с нумерацией от 1 до N, где N - число анализируемых наблюдений. После корректировки аномальных значений целесообразно повторно провести построение двумерных диаграмм рассеяния, чтобы удостовериться в отсутствии других аномалий. Также при построении диаграмм на основе скорректированного массива данных можно будет увидеть реальные двумерные зависимости в виде корреляций, смещений групповых средних, взаимное расположение групп сравнения в плоскостях, и т.д. Рассмотрим, какое количество графиков с двумерными диаграммами рассеяния необходимо будет построить для нашего варианта с переменными Y, X и Z. Количество парных сочетаний количественных признаков X Nx= 10*(10-1)/2=90/2=45. 2018_7.rar Поскольку число качественных признаков Y и Z равно 11, то имеем число двумерных диаграмм рассеяния 45*11*2=990. Важным моментом работы с подобными графиками является возможность более точного и ясного объяснения зависимостей, обнаруженных с помощью перечисленных выше "фундаментальных" методов. Ведь, как известно, "Лучше один раз увидеть, чем 100 раз услышать", или много раз прочитать результат использования параметрических и непараметрических критериев.
Много измерений - много уравнений. Сложность - это сумма простых трудностей. Как уже говорилось выше, многомерные методы анализа позволяют получить не единственное, уникальное решение, а некоторый набор этих решений. Так при оценке уравнений логистической регрессии используются несколько различающихся алгоритмов. Основные различия этих алгоритмов в процедурах пошагового отбора предикторов, значениях уровней статистической значимости отбора этих предикторов, а также в ряде других более сложных аспектов. В результате этого получается некоторый набор уравнений. Количество получаемых при этом уравнений зависит не только от выбранных алгоритмов, но и от того, каков объём потенциальных предикторов. Предположим, что вначале для оценки уравнения алгоритмом используются все 20 качественных и количественных потенциальных предикторов. Однако в большинстве случаев в реальных массивах данных у части признаков есть пропуски. То есть в отдельных клетках таблицы отсутствуют измеренные величины (у количественных признаков) и обозначения градаций у качественных признаков. Поскольку в анализе могут использоваться только те наблюдения, у которых нет пропущенных значений, то в зависимости от количества потенциальных предикторов будет зависеть и количество наблюдений с пропущенными значениями. То есть чем больше количество потенциальных предикторов используется для оценки уравнения логит-регрессии, тем выше вероятность увеличения количества наблюдений с одним или несколькими пропущенными значениями. И значит, тем меньшее количество наблюдений будет реально использоваться при оценке уравнений любыми алгоритмами. В качестве примера рассмотрим следующую таблицу.
В клетках столбцов A -- E символом "x" обозначено непропущенное значение данных признаков. Тогда как в ряде пустых клеток отсутствуют значения этих признаков. Если в анализе использовать все признаки (столбцы A -- E), то в этом случае лишь одно наблюдение под номером 1 не имеет пропущенных значений. И, стало быть, только одно наблюдение и может быть использовано в оценке уравнения. Естественно, что в этом случае ни один алгоритм не может быть использован на основе лишь одного единственного наблюдения. Реальные данные обычно содержат порядка 5-20% пропущенных значений. И лишь исключительно редко процент пропусков равен нулю. Поэтому при проведении оценки уравнения логит-регрессии целесообразно вначале выводить таблицу, содержащую число непропущенных значений по каждому из потенциальных предикторов. Далее производится вычисление количества наблюдений имеющих непропущенные значения по всем анализируемым признакам. Например, в таблице данных с признаком Y, и наборами количественных и качественных признаков X и Z, имеются 150 наблюдений. Однако ввиду наличия пропусков по ряду признаков лишь 130 наблюдений не имеют ни одного пропуска по всем признакам. И значит только эти 130 наблюдений могут быть использованы для оценки уравнений. Практика статистического анализа с использованием многомерных методов показывает, что для получения достаточно надёжных и устойчивых результатов желательно, чтобы число наблюдений в анализируемом массиве данных было в 5-10 раз больше числа используемых признаков. Если же число наблюдений всего лишь в 1,5 - 2 раза больше числа признаков, то получаемые при этом результаты не всегда надёжны. И в этом случае требуется большой опыт профессионального биостатистика, чтобы даже из таких данных получить надёжные результаты. Если же из 150 наблюдений с использованием всех признаков могут быть проанализированы лишь 30-40 наблюдений, то в этом случае следует проводить анализ путём последовательного исключения признаков с минимальными числом измеренных значений. Такая методика приводит к многократному увеличению количества получаемых при этом уравнений с разными наборами предикторов. И для выбора наиболее ценных и полезных уравнений следует внимательно изучить результаты анализа парных связей. Поскольку в этом случае в анализе парных связей используется гораздо большее количество наблюдений. Что приводит к получению более надёжных результатов. Другой важный аспект определения ценности получаемых уравнений логит-регрессии заключается в оценке возможности использования предикторов уравнения для воздействия на организм пациентов, с целью повышения вероятности благоприятного исхода. Например, в конкретное уравнение были включены 5 предикторов. Анализ этого уравнения показывает, что для увеличения вероятности благоприятного исхода следует уменьшить значения 3-х предикторов, и увеличить значения остальных 2-х предикторов. Однако все анализируемые признаки делятся не только на качественные и количественные. А также подразделяются на другие 2 подгруппы: 1 - управляемые, т.е. поддающиеся с помощью различных методов изменению своих значений в нужном направлении. Например, перед проведением полостной операции показатель крови МНО может быть уменьшен с величины 4 до величины 2,5. Тогда как во второй подгруппе присутствуют признаки, значения которых не могут быть изменены. К примеру, нельзя изменить пол, возраст пациента, его генотип, группу крови и резус-фактор, и т.п. В тех случаях, когда в полученных уравнениях мало предикторов, которые могут быть управляемыми, а доминируют неизменяемые предикторы, следует поступать следующим образом. Необходимо весь исходный массив данных разделить на подгруппы, определяемые градациями качественных, группирующих признаков, вошедших в уравнение, и произвести оценку уравнений раздельно в этих подгруппах. Так при оценке уравнения логит-регрессии признак "Пол" вошёл в него в качестве предиктора. В этом случае оценки уравнения для зависимого признака Y следует произвести раздельно для мужчин и женщин. После чего полученные наборы уравнений для двух этих подгрупп следует сопоставить как по подмножествам предикторов, вошедших в уравнения, так и по их ранжированному расположению по модулю стандартизованных коэффициентов регрессии. И в этом случае также следует повторить анализ рассмотренных выше "фундаментальных" парных связей для отдельных подгрупп наблюдений мужчин и женщин. И также сделать для этих подмножеств наблюдений рассмотренные выше двумерные графики. Упрощаем и усложняем предикторы Усложнять просто, упрощать сложно. В 1869 году Адольф Кетле, бельгийский математик, один из создателей научной статистики, разработал величину, позволяющую оценить степень соответствия роста человека и его массы. Этот показатель оценивает, является ли масса конкретного человека недостаточной, нормальной или избыточной. Вначале этот показатель назывался "Индекс Кетле". В настоящее время его называют " Индекс массы тела", и рассчитывается он по формуле: , где: m - масса тела в килограммах; h - рост в метрах. Как видим, размерность данного индекса массы тела равна [кг/м2]. Многочисленные исследования установили наличие взаимосвязи между артериальным давлением и индексом массы тела. Этот нюанс объясняется, в том числе и тем, что размерность индекса массы тела есть размерность давления. То есть речь идёт о наличии корреляционных связей между двумя показателями с идентичными размерностями. Таким образом, индекс массы тела есть новый признак, объединяющий в себе 2 исходных показателя: массу тела и рост. Очевидно, что такая интеграция двух признаков в один делает новый признак более информативным и ценным. Отметим, что помимо индекса Кетле существует и много других аналогичных индексов. Например, индекс Брока, индекс Брока-Бругша, индекс Бернгарда, индекс BAI, индекс Лоренца, индекс Соловьёва, индекс Брейтмана, индекс Давенпорта, индекс Одера, индекс Ноордена, индекс Татоня, индекс объёма тела BVI, и т.д. При оценке уравнений логистической регрессии можно трансформировать исходные признаки, создавая с помощью этих трансформаций более информативные предикторы. Поскольку в этом случае используются как количественные, так и качественные признаки, то методы их трансформации будут существенно отличаться. Трансформация количественных признаков с целью повышения ценности и качества уравнений логит-регрессии осуществима различными способами. Первое направление заключается в использовании нелинейных преобразований исходных признаков. Например, вместо исходного количественного признака X можно использовать признак XА, где А - показатель степени. При А=0,5 получаем новый признак, равный квадратному корню из исходного признака X. При А=2 получаем квадрат исходного признака, и т.д. Кроме степенного преобразования можно использовать и такие функции, как логарифмирование, еХ, и т.д. При этом создание нового, трансформированного признака, не означает, что исходный признак должен быть удалён из анализа. Одновременное использование обоих признаков в процедурах отбора предикторов позволит установить, какой из этих признаков будет включён в уравнение. Если же оба признака будут включены в уравнение, то и в этом случае сравнив модули стандартизованных коэффициентов можно установить признак более ценный для данной модели. Для выбора подобных нелинейных преобразований целесообразно вначале исследовать графики с данным исходным признаком. Второе направление трансформации заключается в создании новых признаков, используя для этого функции, включающие несколько исходных переменных. Например, обозначим символом F произведение исходных признаков x4* x7, то есть F= x4* x7. А символом D можно обозначить корень квадратный из новой переменной F, и т.д. Разумеется, такая генерация новых признаков вновь увеличивает численность парных взаимосвязей, которые также следует анализировать. В наших статьях (http://www.biometrica-tomsk.ru/freq.htm http://www.biometrica-tomsk.ru/freq1.htm http://www.biometrica-tomsk.ru/freq2.htm ) мы обсуждаем аспект неоднородности взаимосвязи двух качественных признаков в таблицах сопряжённости. Например, когда установлено наличие связи между парой качественных признаков, то весьма полезно исследовать её структуру. Это необходимо делать потому, что такие связи могут быть сконцентрированы в отдельных клетках, строках, или столбцах. Ещё более полезно это делать в тех случаях, когда число градаций этих качественных признаков более 2. То есть в этом случае число клеток в таблице сопряжённости более 4. Исходя из опыта такого анализа, весьма полезно использование процедуры бинаризации при использовании качественных предикторов с числом градаций более 2. В этом случае каждая градация такого качественного признака может заменяться новым признаком с двумя градациями. Например, 1 - есть (далее следует название градации исходного признака), и 2 - нет (далее следует название градации исходного признака). Далее следует, используя новые бинарные признаки провести анализ парных взаимосвязей ("фундаментальные" взаимосвязи). Такая процедура позволит произвести отбор в состав предикторов те прежние градации качественного признака, у которого число градаций было более 2. Помимо процедуры бинаризации качественных признаков с числом градаций более 2, возможно улучшение структуры градаций и другим образом. Например, в анализе используется дискретный качественный признак Z, который описывает социальный статус пациентов. Такой признак может иметь разное количество градаций. Это количество градаций и их названия выбирает сам исследователь. Например, признак Z имеет 7 градаций, среди которых есть такие градации, как "учащийся", "рабочий", "пенсионер", и т.п. Чем больше число градаций у подобных признаков, тем меньше количество наблюдений имеющих одну из таких градаций. И наоборот. Информационная ценность связи между качественными признаками тем выше, чем больше соотношение между максимальным и минимальным количеством наблюдений по градациям признаков. Предположим, в массиве из 150 наблюдений у признака с 7 градациями максимальное число наблюдений (частота) по одной из градаций равно 40. А минимальное количество наблюдений (частота) по другой градации равно 10. Для остальных 5 градаций сумма оставшихся частот равна 150 - (40 + 10) = 100. По этим градациям частоты могут быть от 11 и выше до 39. Если же произвести "уплотнение" градаций этого признака, например, путём объединения двух или трёх градаций в одну градацию нового признака, то в этом случае увеличится средняя частота по градациям нового признака. Естественно, что в этом случае есть разные варианты объединения исходных градаций. Выбор этих вариантов может быть произведён с помощью нескольких методов. Например, путём анализа структуры взаимосвязи между зависимым признаком Y и исходным группирующим признаком Z=социальный статус, либо с помощью кластерного анализа. Поскольку можно использовать несколько вариантов объединения, то сравнение параметров новых качественных предикторов, вошедших в те или иные наборы уравнений логит-регрессии, позволяет выбрать оптимальный вариант. Цель только тогда может быть достигнута, Описание любой методики, по сути, является описанием некой системной модели. Каждую систему можно представить в виде элементной структуры. При этом между элементами данной структуры имеются связи разной интенсивности. Эти связи могут иметь направленность причинно-следственных взаимодействий. Описание подобных моделей может быть на вербальном, и невербальном уровне, например, в виде математических выражений. Используя модель логистической регрессии следует обязательно вначале сформулировать цель получения такой модели. Такая цель всегда имеет как минимум 2 уровня. На первом уровне устанавливается сама структура модели - состав отдельных элементов, интенсивность и направленность связей этих элементов, надёжность и точность модели, и т.п. Второй уровень содержит оценку возможностей продуктивного использования модели для достижения конкретных, практических целей. Например, использования уравнения логистической регрессии для повышения вероятности благоприятного исхода лечения. Получаемые наборы моделей образно можно представить в виде сети, или некой паутины. В этих сетях узел можно представить как связующее звено. А сетевые нити как отдельные признаки, переменные. Представим полученное уравнение логит-регрессии в следующем виде: Как видно из этой схемы величина вероятности "Р" определяется параметром , который, в свою очередь, определяется слагаемыми. А величины слагаемых определяются значениями сомножителей. При этом данные сомножители могут содержать значения как количественных, так и качественных признаков, с соответствующими коэффициентами. Структура этих моделей и их параметры определяются не только используемыми алгоритмами оценки коэффициентов уравнения, но и свойствами подмножества потенциальных предикторов, из которых алгоритм выбирает часть этих предикторов в уравнение. Все потенциальные предикторы, из которых производится данный отбор, условно можно разделить на несколько локальных группировок. Первую группу составляют признаки анамнеза, а также такие показатели, как пол и возраст пациента, группа крови и резус-фактор, и т.п. Т.е. в этом наборе показателей содержатся характеристики организма пациента, включая как прошлые его заболевания, так и признаки, которые, возможно, привели к возникновению текущего заболевания. Очевидно, что в процессе лечения данные показатели в принципе не могут быть изменены с целью повышения вероятности благоприятного исхода. Вторую группу потенциальных предикторов составляют результаты текущих анализов состояния организма пациента. Это такие признаки, как результаты анализа крови, мочи, ЭКГ, УЗИ, рентгенограммы, результаты томографии, и т.д. Эта группа в свою очередь подразделяется на 2 подгруппы. Первая подгруппа содержит признаки, которые при необходимости могут тем или иным способом целенаправленно изменяться. В другую же подгруппу входят признаки, которые либо в принципе не могут быть изменены, либо их изменение сопряжено с большими рисками, большими затратами, и т.д. Таким образом, фактически имеется 3 подгруппы признаков. Две из них включают неизменяемые признаки, а третья - изменяемые показатели. Исходя из наличия этих трёх подгрупп показателей можно (и нужно!) производить оценки уравнений логистической регрессии с использованием следующих семи комбинаций этих 3-х подгрупп: 1; 2; 3; 1+2; 1+3; 2+3; 1+2+3. Очевидно, что в зависимости от того, какая из этих комбинаций групп потенциальных предикторов используется в анализе, меняются и цели построения этих моделей. Такая смена целей исследования зависит также от того, какие группы наблюдений (пациентов) сравниваются. Так анализ признаков групп 1, 2 и 1+2 позволяет попытаться оценить модель возникновения самого заболевания. Например, сравниваются между собой две группы пациентов. Первая группа - это больные пациенты, а вторая группа - здоровые (группа "Контроль"). В этом случае основной целью является оценка того, какие из признаков вносят основные вклады в развитие заболевания. Если же сравниваются итоги лечения с двумя исходами (благоприятный и неблагоприятный), то в этом случае оцениваются вклады анамнестических показателей и других неизменяемых показателей на вероятность благоприятного исхода лечения. Если же использовать для анализа остальные четыре группы признаков 3, 1+3, 2+3, 1+2+3, то в этом случае оцениваемые модели в принципе могут содержать в себе признаки подгруппы 3. И тогда несложно установить, в каком направлении изменять (увеличивать или уменьшать) вошедшие в уравнение логит-регрессии предикторы из группы 3, чтобы увеличивать вероятность благоприятного исхода. При этом весьма важную информацию о возможности повышения вероятности благоприятного исхода даёт и присутствие в этих уравнениях предикторов с неизменяемыми значениями. То есть предикторов из групп 1 и 2. В качестве примера рассмотрим следующую ситуацию. В уравнение логит-регрессии вошло 6 предикторов. Два предиктора относятся к группе признаков 1, один предиктор - к группе 2, и остальные три предиктора к группе 3. То есть из шести предикторов можно изменять значения (увеличивать или уменьшать) только у трёх признаков. Напомним, что при значении параметра BETA=0 вероятность благоприятного исхода Y=1 равна
Подставляя в полученное уравнение для пациента Иванова И.И. значения 6 предикторов, получаем, например, значение BETA=0,5. Для этого значения вероятность благоприятного исхода Y=1 равна
А вероятность Р2 = 1 - 0,622=0,378. По мере увеличения значения параметра BETA (путём изменения предикторов), вероятность Р1 будет увеличиваться, а вероятность Р2 уменьшаться. Так Р1(BETA=1)=73,1% ; Р1(BETA=2)=88% ; Р1(BETA=3)=95,3% . Поскольку из 6 предикторов могут быть изменены только 3 предиктора, то необходимо оценить реальные возможности увеличения или уменьшения этих предикторов, чтобы значение BETA увеличивалось. Если эти 3 предиктора положительны, а также положительны и коэффициенты уравнения для этих предикторов, то для увеличения BETA требуется увеличивать значения трёх этих признаков. Если же у какого-то предиктора коэффициент в уравнении отрицателен, то значит, для увеличения BETA следует данный предиктор уменьшить. Это приведёт к уменьшению модуля соответствующего произведения со знаком минус, и увеличению BETA. Например, для увеличения вероятности благоприятного исхода надо уменьшить значение систолического артериального давления. В таких случаях при изменении значений предикторов следует обязательно возвращаться к "фундаменту". То есть вновь ознакомиться с результатами анализа парных взаимосвязей тех предикторов, значения которых подвергаются изменениям. Поскольку в этом случае изменение одной переменной может вызвать соответственно изменения некоторых других признаков, с которыми данная переменная имеет статистически значимые взаимосвязи. Естественно, что при этом следует также учитывать и направленность причинно-следственных связей. Задача знания состоит в том, В документе "СТРАТЕГИЯ РАЗВИТИЯ МЕДИЦИНСКОЙ НАУКИ В РОССИЙСКОЙ ФЕДЕРАЦИИ НА ПЕРИОД ДО 2025 ГОДА" [ 7 ] сказано следующее. "Существует острая потребность расширять использование передовых технологий в медицинской науке и практике, без которых трудно представить здравоохранение XXI века. ... Для решения этих проблем нужны революционные меры по реорганизации биомедицинской науки, в том числе путём развития трансляционной и доказательной медицины, что позволит разработать и оценить эффективность новых методов диагностики, медицинских технологий и инновационных лекарственных препаратов, выявить препятствия к их внедрению, а также способствовать безотлагательному продвижению данных разработок до внедрения в клиническую практику с целью повышения качества лечения и качества жизни". Отношение исследователей к работе с такими многомерными моделями, как логистическая регрессия, при реализации этой стратегии развития, определяется как отношением к самой науке, так и мотивацией использования этих моделей. Вот какое определение понятия "Наука" даёт Википедия.[ 8 ] "Наука — сфера человеческой деятельности, направленная на выработку и систематизацию объективных знаний о действительности. Основой этой деятельности является сбор фактов, их постоянное обновление и систематизация, критический анализ и, на этой базе, синтез новых знаний или обобщений, которые не только описывают наблюдаемые природные или общественные явления, но и позволяют построить причинно-следственные связи с конечной целью прогнозирования". Именно установление причинно-следственных связей и требует выполнения этапа "фундаментального" изучения парных связей. Это и приводит к получению большого объёма результатов. Данные результаты фактически есть новое знание. Это знание как о наличии статистически значимых связей между различными признаками, так и об отсутствии таковых связей. Однако для того чтобы это новое знание можно было реально использовать в практической деятельности, необходимо не только ЗНАТЬ, но также и ПОНИМАТЬ это новое знание. То есть результаты анализа таких связей необходимо не только прочитать, но и найти им объяснения с точки зрения уже известных, классических взаимосвязей. И найти такие объяснения возможно лишь самому медику-исследователю, а не биостатистику, что, естественно, потребует немалых усилий. И здесь в качестве решающего правила выступает мотивация использования медиком-исследователем подобных моделей. Если мотивом является действительно желание достигнуть понимания методики прогнозирования, и, соответственно, управления в практической медицине вероятностями благоприятных исходов, то в этом случае "фундаментальный" этап не игнорируется. Более того, поиск объяснений установленных взаимосвязей, либо их отсутствия, существенно повышает у медика-исследователя уровень знаний в собственной отрасли медицины. Когда же мотивом использования подобных моделей является лишь сам факт их упоминания в очередных публикациях, то в этом случае "фундаментальный" этап игнорируется. Уровень публикуемых научных результатов сейчас отражается в значениях индексов цитирования. "Каждая статья возникает на фундаменте других статей и сама, в свою очередь, становится одним из отправных моментов для следующей. Указание на источник — наиболее яркое проявление этого учёного способа кирпичной кладки. По подшивкам многих научных журналов можно видеть, что где-то около 1850 возникает традиция открыто ссылаться на работы предшественников, по отношению к которым статья мыслится хорошо разработанным и существенным дополнением, в чём, собственно, и состоит смысл статьи». [9] Поэтому истинный медик-исследователь не будет игнорировать "фундаментальный" этап при использовании модели логистической регрессии. Что и обеспечит соответственный уровень цитирования его статей с описанием и объяснением причинно-следственных связей. 1. ГОСТ Р 50779.10-2000 «Статистические методы. Вероятность и основы статистики. Термины и определения», М.: Госстандарт России. http://www.biometrica-tomsk.ru/GOST_50779.pdf 2. Леонов В.П. Современные проблемы информатики. Введение в семиотику информационных технологий: учебное пособие. – Томск: Изд-во НТЛ, 2011. – 248 с. http://www.biometrica-tomsk.ru/leonov_2.pdf 3. Леонов В.П. Долгое прощание с лысенковщиной. http://www.biometrica-tomsk.ru/lis/index13.htm 4. Леонов В.П. Логистическая регрессия. Основные понятия и возможности метода. http://www.biometrica-tomsk.ru/logit_1.htm 5. Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. М.: Финансы и статистика, 1983 г. 304 с. 6. Кендалл М., Стюарт А. - Статистические выводы и связи. М., Наука, Физматлит, Т. 2, 1973. — 899 с. 7. СТРАТЕГИЯ РАЗВИТИЯ МЕДИЦИНСКОЙ НАУКИ В РОССИЙСКОЙ ФЕДЕРАЦИИ НА ПЕРИОД ДО 2025 ГОДА. http://www.fesmu.ru/SITE/files/editor/file/obyavlenya/301020122.pdf 8. Наука. Материал из Википедии — свободной энциклопедии. 9. Прайс Д. Малая наука, большая наука // Наука о науке. М.: Прогресс, 1966. С. 281-384.
Далее: 9. Как повысить качество логистической регрессии.
|
НЦ БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее ) Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя. Леонов В.П. ... При этом содержание подобных "ПРОГРАММ..." определяются приводимыми 5-ю деталями. ... В данном примере "ПРОГРАММЫ..." приводится 22 БЛОКА по конкретным методам анализа и графикам. Отзывы исследователей по СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ (время и опыт). Леонов В. Сравниваем средние, а также и ... В. Леонов. Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками. НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов. Вестник Томского государственного университета. Серия "Математика. Кибернетика. Информатика". №275. АПРЕЛЬ 2002, стр. 17-24. Анализ таблиц сопряжённости 2х2 с вычислением многих статистик связи... Можете просматривать все графики по данной тематике... Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов. Примеры отличных результатов статистического анализа в диссертациях, дипломных работах и статьях, полученных с нашей помощью. В.В. Половинкин. Тотальная мезоректумэктомия — фактор повышения эффективности лечения среднеампулярного и нижнеампулярного рака прямой кишки. (диссертация на
соискание учёной степени доктора медицинских наук) Н.Г. Веселовская. Клиническое и прогностическое значение эпикардиального ожирения у пациентов высокого сердечно-сосудистого риска. (диссертация на
соискание учёной степени доктора медицинских наук) В.А. Габышев. Фитопланктон крупных рек Якутии и сопредельных территорий восточной Сибири. (диссертация на соискание учёной степени доктора биологических наук) М.И. Антоненко. Гиперкортицизм без специфических клинических симптомов: Н.Г. Веселовская. Прогнозирование риска рестеноза коронарных артерий после их стентирования у пациентов с ожирением. (статья) Н.П. Гарганеева. Клинико-патогенетические закономерности формирования психосоматических соотношений при заболеваниях внутренних органов и пограничных психических расстройствах (автореферат диссертации на соискание учёной степени доктора медицинских наук) А.Г. Сыркина. Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук). Рудаков А.Н. Дифференцированный подход к проведению профилактики язв желудка и двенадцатиперстной кишки у больных ишемической болезнью сердца, принимающих аспирин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) Кривулина Г.Б. Влияние велотренировок различной продолжительности на дисфункцию эндотелия и факторы риска атеросклероза у молодых мужчин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) Сутурина Л.В. Гипоталамический синдром: основные звенья патогенеза, диагностика, патогенетическая терапия и прогноз (автореферат диссертации на соискание учёной степени доктора медицинских наук) Роль «малых» доз ионизирующего излучения в развитии неонкологических эффектов: гипотеза или реальность? Бюллетень сибирской медицины, № 2, 2005, с. 63-70. Карпов А.Б., Семенова Ю.В., , Тахауов Р.М., Литвиненко Т.М., Попов С.В., Леонов В.П. В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года). Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года). Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г. Применение статистики в статьях и диссертациях по медицине и биологии. Часть I. Описание методов статистического анализа в статьях и диссертациях. Международный журнал медицинской практики, 1998 г., вып. 4. В.П. Леонов, П.В. Ижевский ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ. ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ". Леонов В.П. Применение статистики в статьях и диссертациях по медицине и биологии. Часть IV. Наукометрия статистической парадигмы экспериментальной биомедицины. Международный журнал медицинской практики, 2002 г. вып. 3. Леонов В. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ. (время и опыт). Леонов В.П. Предложения зарубежных исследователей о важных методах статистического анализа Начиная с 2010 года зарубежные исследователи по медицине, биологии, и многим иным направлениям, чаще стали обращаться по своим просьбам статистического анализа в наш НЦ БИОМЕТРИКА. Которые затем часто и упоминают о нас в своих статьях. И поэтому для проведения нами статистического анализа они как раз и поддерживают использование предлагаемых им многих сложных многомерных методов анализа. А также использовать для них и многие стандартные парные методы статистического анализа, но уже по более глубоким аспектам. И получая результаты этих сложных методов статистического анализа, эти исследователи как раз и осознают реально сложными свои технологии. Что и позволяет им обнаруживать и устанавливать детали новых улучшений своих технологий. ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский. Статистика в кардиологии. 15 лет спустя. Леонов В.П. 15 лет назад, в 1998 году, в журнале «Кардиология» была опубликована наша статья «Применение методов статистики в кардиологии (по материалам журнала «Кардиология» за 1993–1995 гг.) В ней были проанализированы 426 статей кардиологической тематики. Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику". Якутск, (12-13 ноября 2009). Новые полезные книги... (Заказать книгу можно через издательство) Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с. Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с. Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова. Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова. В.В. Мартиросян, Ю.А. Долгушева. Анализ влияния гелиогеофизических и метеорологических факторов на инсульты с учётом фаз солнечного цикла. Ростовский государственный медицинский университет. – Ростов н/Д.: Изд-во"АкадемЛит" (ИП Ковтун С.А.) 2014г. 414 с. ISBN 978-8-904067-03-8. В монографии приведены и проанализированы результаты углублённого статистического анализа ретроспективных данных из протоколов вскрытий лиц, умерших от мозговых инсультов (1135 случаев) за годы высокой (2000–2002 гг) и низкой (2008–2010 гг) солнечной активности на примере г. Ростов-на-Дону. Наблюдаемый в настоящее время очередной максимум солнечной активности актуализирует необходимость сбора, обработки и осмысления новых научных данных, содействующих прогнозированию и разработке профилактических мер по снижению заболеваний у разных групп населения, вызываемых магнитными бурями при усилении активности Солнца. Отмечается, что в формировании сосудистых заболеваний головного мозга прослеживается совокупное влияние множественных факторов риска.
На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа". В новый век - с доказательной биомедициной Долгое прощание История науки не ограничивается перечислением успешных исследований. Она должна сказать нам о безуспешных исследованиях и объяснить, почему некоторые из самых способных людей не могли найти ключа знания, и как репутация других дала лишь большую опору ошибкам, в которые они впали. Дж. Максвелл Для большинства читателей фамилия Лысенко ассоциируется с августовской сессией ВАСХНИЛ 1948 г. и разгромом генетики. Однако лысенковщину нельзя сводить только к запрету на генетику. Достигнув своего апогея в середине текущего века, и став воистину периодом средневековья в отечественной биологии и медицине, лысенковщина изуродовала и методологию этих наук, изгнав из них в частности математику, и в первую очередь статистику. ... В статье описаны основные этапы этого явления и особенности методологии применения статистики в биологии и медицине, полученные автором при анализе нескольких сот диссертаций и монографий а также более 1500 статей в области экспериментальной биомедицины.
Конференция по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению», (24 - 27 сентября 2015 года). Армянская ассоциация специалистов доказательной медицины Камчатская биометрика-2014. Семинар по биометрике в камчатском НИИ КамчатНИРО. (24.03.2014 - 3.04.2014). Камчатская фото-биометрика-2014. Фоторепортаж с семинара по биометрике в Петропавловске-Камчатском. Статистика - это что? Статистика - нужна зачем? Статьи читаем - зачем? Статьи пишем - зачем? Краткая версия лекции для слушателей-медиков в Ереване, прочитанной в 2014 году по Скайпу. «Роющая деятельность кабана». Статья в "Независимой" газете... В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года). Фоторепортаж с Конференции по доказательной медицине в Ереване. Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине. Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г. Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя. Леонов В.П. ... При этом содержание подобных "ПРОГРАММ..." определяются приводимыми 5-ю деталями. ... В данном примере "ПРОГРАММЫ..." приводится 22 БЛОКА по конкретным методам анализа и графикам. ОТЗЫВ Шрамко Светланы Владимировны, доцента кафедры акушерства и гинекологии ДПО ГИУВ, г. Новокузнецк, о сотрудничестве с БИОМЕТРИКОЙ. "Выражаю огромную признательность и благодарность Леонову Василию Петровичу и его коллегам - коллективу центра БИОСТАТИСТИКА за эффективную и плодотворную работу. ... На мой взгляд, наиболее ценным является возможность обучения статистике, предлагаемый формат общения позволяет не только обсуждать полученные результаты, но и вместе с этим развиваться, расти диссертанту и в какой-то степени облагораживаться. Имея опыт написания кандидатской диссертации, поняла - как примитивны методы статистической обработки материала, которыми я владею, как мало я знаю! ОТЗЫВ Арутюнян М.Р., врач-стоматолог, г. Саратов. Здравствуйте, уважаемый Василий Петрович! Хочу выразить огромную благодарность Вам и Вашим коллегам за высокий профессионализм, индивидуальный и внимательный подход и высокое качество исполнения своей работы! ... До сотрудничества с Василием Петровичем я пыталась самостоятельно разобраться в статистических методах анализа и прочитала не одно руководство. Но, чем больше я читала, тем больше осознавала, что ничего не понимаю. Все мои представления о статистической обработке данных заключались в расчёте средних показателей, стандартных отклонений и их сравнении. Я и представить себе не могла о существовании таких интересных методов анализа, как кластерный анализ, анализ таблиц сопряжённости, корреляционный анализ, логистическая регрессия! Список научных и учебных изданий по биометрике и статистике Три "Почему ..." и пять принципов описания статистики в биомедицинских публикациях. Почему появилась эта статья? За время существования сайта БИОМЕТРИКА его автору пришло довольно много писем, в которых читатели консультировались относительно различных нюансов использования и описания методов статистики в статьях и диссертациях. Этот поток писем периодически возрастал после публикаций статей автора на сопутствующие темы в "Бюллетене ВАК РФ", "Международном журнале медицинской практики", "Медицинской газете", "Сибирском медицинском журнале", а также непосредственно на сайте БИОМЕТРИКА. С каждым годом таких писем становится все больше... Леонов В.П. Общие проблемы применения статистики в биомедицине. Мнения медиков, биологов, и других диссертантов ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский. Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику", посвящённая памяти доктора медицинских наук, профессора В.П. Алексеева в Якутске (12-13 ноября 2009). Леонов В.П. Факторный анализ: основные положения и ошибки применения. Применение статистики в статьях и диссертациях по медицине и биологии. Часть I. Описание методов статистического анализа в статьях и диссертациях. Международный журнал медицинской практики, 1998 г., вып. 4. В.П. Леонов, П.В. Ижевский ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ. ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ". Леонов В.П. Применение статистики в статьях и диссертациях по медицине и биологии. Часть IV. Наукометрия статистической парадигмы экспериментальной биомедицины. Международный журнал медицинской практики, 2002 г. вып. 3. Леонов В. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ. (время и опыт). Леонов В.П. ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский. Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику". Якутск, (12-13 ноября 2009). Анализ таблиц сопряжённости 2х2 с вычислением многих статистик связи... Можете просматривать все графики по данной тематике... Общие проблемы применения статистики в биомедицине, или что разумнее: ДДПП или ДППД? Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал
медицинской практики,
2007, вып. 2, стр.19-35. КРАТКОСТЬ – СЕСТРАТАЛАНТА? ИЛИПРИЗНАК НЕЗНАНИЯ?Н.Бейли. МАТЕМАТИКА В БИОЛОГИИ И МЕДИЦИНЕ Критерий Колмогорова-Смирнова: особенности применения Три "Почему ..." и пять принципов описания статистики в биомедицинских публикациях Н. Бейли Чтобы не допускать ошибок в использовании и описании статистики в статьях и диссертациях, следует прочитать материалы представленные в КУНСТКАМЕРЕ - коллекции диссертаций и статей по медицине и биологии, с набором статистических ошибок и нелепостей. Экспозиция 1 Экспозиция 2 Экспозиция 3
Экспозиция 4 ОТЗЫВ заочного аспиранта Омского Государственного медицинского университета, врача акушера-гинеколога акушерского отделения Лабытнангской городской больницы(ЯНАО) Коваленко Марины Александровны. Хочу поблагодарить создателей сайта БИОМЕТРИКА, и лично Леонова В.П., за совместно проделанную работу. Я, как и многие практические врачи, считают, что статистика - это что-то из области фантастики, где-то рядом с космонавтикой... ОТЗЫВ Корнеевой Н.В., доцента ДВГМУ, г. Хабаровск. Здравствуйте! Меня зовут Корнеева Наталья Вячеславовна, я являюсь доцентом кафедры факультетской терапии ДВГМУ г. Хабаровск. Как и полагается доценту, я имею степень кандидата медицинских наук, диссертация защищена в 2011 году. Работая над кандидатской диссертацией, самой сложной для меня была статистическая обработка данных. Обучаясь в очной аспирантуре, я посетила 5 занятий по статистике, предусмотренные программой подготовки аспирантов. Занятия проводила то ли студентка технического ВУЗа, то ли молодая преподаватель, которая постоянно заглядывала в конспект и не могла понять суть преподаваемого ею, тем более эту суть не могли понять и обучающиеся. Прикладного значения полученным «знаниям», я так и не нашла. (далее...)" ОТЗЫВ врача-кардиолога М.В. Емельяненко, ФКУ «Центральный военный госпиталь имени П.В. Мандрыка» МО РФ, Москва, о проведённом статистическом анализе. Хочу выразить глубокую признательность за качественный и весьма объёмный труд, проделанный Вами по статистическому анализу моей базы данных. Особенную благодарность, без сомнения, хотелось бы выразить руководителю проекта «БИОМЕТРИКА» - Василию Петровичу Леонову. Причина такой благодарности следующая. Помимо структурированного статистического анализа присланных в Ваш адрес медицинских данных, Вы подробно и, что самое невероятное, – доступным образом разъяснили мне суть каждого метода, который был применён при анализе моей матрицы. (далее...) Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов. Мотивом к написанию данной статьи стал следующий инцидент. 11 апреля 2016 г. я получил вот какое письмо. Уважаемый Василий Петрович! Я являюсь одним из читателей Вашего сайта "Биометрика", который нашёл по ссылке, размещённой на странице http://bono-esse.ru/blizzard/ais.html C большим интересом ознакомившись, в частности, с разделом "Кунсткамера", обращаюсь к Вам с несколько необычным вопросом по независимому, неформальному рецензированию работы .... P.S. Сайт дополнен PDF-файлом полной версии данной статьи. НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов. Вестник Томского государственного университета. Серия "Математика. Кибернетика. Информатика". №275. АПРЕЛЬ 2002, стр. 17-24. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ (время и опыт). Применение статистики в статьях и диссертациях по медицине и биологии. Часть I. Описание методов статистического анализа в статьях и диссертациях. Международный журнал медицинской практики, 1998 г., вып. 4. В.П. Леонов, П.В. Ижевский ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ. ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ". Леонов В.П. Применение статистики в статьях и диссертациях по медицине и биологии. Часть IV. Наукометрия статистической парадигмы экспериментальной биомедицины. Международный журнал медицинской практики, 2002 г. вып. 3. Леонов В. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ. (время и опыт). Леонов В.П. ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский. Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику". Якутск, (12-13 ноября 2009). Статистика - это что? Статистика - нужна зачем? Статьи читаем - зачем? Статьи пишем - зачем? Краткая версия лекции для слушателей-медиков в Ереване, прочитанной в 2014 году по Скайпу. В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года). Фоторепортаж с Конференции по доказательной медицине в Ереване. Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине. Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г. В. Леонов. КЛАССИФИКАЦИЯ ОШИБОК ПРИМЕНЕНИЯ СТАТИСТИКИ В ОТЕЧЕСТВЕННОЙ МЕДИЦИНЕ. В. Леонов. МЕМЕТИЧЕСКИЙ АНАЛИЗ СТАТИСТИЧЕСКИХ ЗАБЛУЖДЕНИЙ В ПУБЛИКАЦИЯХ НАУЧНЫХ ШКОЛ Международная конференция по доказательной медицине в Ереване (18 - 20.10.2012) Ереванская фото-биометрика. Фоторепортаж о конференции в Ереване. Доклад "Почему и как надо учить медиков статистике?" В. Леонов. Зачем нужна статистика в доказательной медицине? В. Леонов. Армянский медицинский реферативный журнал, 2012, вып. 9, с. 184-193. Оформление баз данных для статистического анализа Многие исследователи, которые понимают необходимость получения результатов весьма продуктивного статистического анализа своих ценных баз данных, обращаются в наш НЦ БИОСТАТИСТИКА с просьбами о помощи. Примеры таких отличных результатов выложены нами на другом разделе нашего сайта БИОМЕТРИКА. Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты. ВВЕДЕНИЕ. ДОКАЗАТЕЛЬНАЯ МЕДИЦИНА И СТАТИСТИКА. КРАТКОСТЬ – СЕСТРА ТАЛАНТА? ИЛИ ПРИЗНАК НЕЗНАНИЯ? ПРОЦЕНТЫ – ПРИМИТИВНО? ЗАТО ДОСТУПНО! СТАТИСТИЧЕСКАЯ ВАМПУКИЗАЦИЯ, ОНА ЖЕ ВСЕОБЩАЯ СТЬЮДЕНТИЗАЦИЯ. «ЛОШАДЕНДУС СВАЛЕНДУС С МОСТЕНДУС». КАК ПРАВИЛЬНО: EXCEL ИЛИ EXEL, WINDOWS ИЛИ WINDOUS, MICROSOFT ИЛИ MIKROSOFT, STATISTICA ИЛИ STATISTIKA? ЗЕММЕЛЬВЕЙС И СТАТИСТИЧЕСКАЯ ТЕХНИКА БЕЗОПАСНОСТИ. «ЗАЧЕМ НАМ КУЗНЕЦ? НАМ КУЗНЕЦ НЕ НУЖЕН». ПРИМЕРЫ ПОДРОБНОГО ОПИСАНИЯ. КТО ВИНОВАТ? ЧТО ДЕЛАТЬ? ВМЕСТО ЗАКЛЮЧЕНИЯ. Весь обзор одним файлом Когда нельзя, но очень хочется,
или
Ещё раз о критерии Стьюдента. Красноярская биометрика-2008 (28.01.2008 - 07.02.2008) Подготовка к семинару в Красноярске была длительной. 22 декабря 2006 г. я получил электронное письмо от ... Фоторепортаж о семинаре по биометрике в Красноярске. Как и на других семинарах по биометрике, свои впечатления от него слушатели изложили в небольших анкетах. Судя по этим отзывам, они считают полезным для себя участие в его работе. Семинары
по биометрике. Семинар в Красноярске (28.01.2008 - 07.02.2008), летом 2007 г. в Якутске (28.05.2007 - 8.06.2007), весенний семинар в Якутске (18 - 28) 04. 2005, семинар в Иркутске (12 - 16) 02.2002, семинар в Самаре (19 - 24) 04.2004, семинар Новокузнецке (17 - 22) 05.2004), Хинганском заповеднике (25.09 - 03.10) 2000. С предложениями об организации семинаров обращаться к редактору сайта (см. E-mail в нижней части страницы). ВАК-2007: новый председатель и старые проблемы. Кто кого? (Сокращённая версия статьи опубликована в "Независимой газете" от 11 июля 2007 г.). Фоторепортаж о втором семинаре по биометрике в Якутске. Впечатления участников второго семинара по биометрике в Якутске. Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал медицинской практики, 2007, вып. 2, стр.19-35. НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ
(ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). Анализ таблиц сопряжённости 2х2 с вычислением многих статистик связи... Можете просматривать все графики по данной тематике... Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя. Леонов В.П. ... При этом содержание подобных "ПРОГРАММ..." определяются приводимыми 5-ю деталями. ... В данном примере "ПРОГРАММЫ..." приводится 22 БЛОКА по конкретным методам анализа и графикам. ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский. Зачем нужна статистика в доказательной медицине? |
На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа". |
Наш адрес Сайт БИОМЕТРИКА создан в 1997 г. © Василий Леонов
Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя
Зачем нужна статистика в доказательной медицине?
Доклад "Почему и как надо учить медиков статистике?" В. Леонов