Ремонт компьютеров, ноутбуков
Вызвать мастера
Звонок, визит, диагностика - бесплатно!

Восстановление пропусков в данных методом барлетта

Вычислительная техника": С проблемой обработки пропусков в массивах данных приходится сталкиваться при проведении разнообразных социологических, экономических и статистических исследований [1]. Традиционными причинами, приводящими к появлению пропусков, являются невозможность получения или обработки, искажение или сокрытие информации. В результате на вход программ анализа собранных данных поступают неполные сведения. Самым простым решением обработки данных является исключение некомплектных наблюдений, содержащих пропуски, и дальнейший анализ полученных таким образом "полных" данных.

СТАТИСТИЧЕСКИЕ МЕТОДЫ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ДАННЫХ

E-mal: Paper revews the current state the problem of statstcal analyss wth mssng data and the methods of t decson. The usng of resamplng for ths task s offered. The ams of the work are the demonstraton of possbltes resamplng for ths task and nvestgaton the effectveness of resamplng method and classcal methods: Bartlett and means for regresson analyss wth mssng data n dependent varable.

Keywords: mssng data, regresson analyss. Введение При проведении статистического анализа на практике ограничиваются анализом не всей генеральной совокупности в целом, а лишь некоторого выборочного числа наблюдений. Анализируемая выборка должна отвечать критериям качественности и полноты.

В реальности приходится сталкиваться с ситуацией, когда некоторые из свойств одного или нескольких объектов отсутствуют возникает ситуация данных с пропусками, что значительно осложняет математическую обработку, так как смещение основных статистических характеристик, таких как математическое ожидание или дисперсия, например, возрастает прямо пропорционально числу пропусков.

К возникновению пропусков в исходных данных может привести множество причин: например, отсутствие значений вследствие каких-то мелких поломок оборудования, не связанных с экспериментальным процессом, или нежелание респондента при проведении статистического опроса отвечать на вопросы о своих доходах. На сегодняшний день в математической статистике существует несколько путей решения проблемы неполных данных []: исключение некомплектных объектов из исходной выборки.

Данный подход к проблеме можно охарактеризовать как некорректный, так как неполные данные несут в себе новую информацию, необходимую для исследования, и поэтому их важно включать в анализ; применение специально разработанных математических методов анализа неполных данных, таких как метод взвешивания [] или метод максимального правдоподобия и ЕМ-алгоритм [] при этом значительно возрастает сложность проводимого анализа ; восстановление пропусков наиболее распространены методы заполнения по среднему и по регрессии.

В большинстве случаев именно этот подход считается наиболее эффективным и удобным решением проблемы. Основным инструментом прикладной статистической обработки данных служат пакеты программ, библиотеки и другие программные продукты. Можно констатировать, что современное статистическое программное обеспечение анализа данных с пропусками в целом находится на начальном уровне. Практически все статистические программные средства, в которых предусмотрена возможность наличия пропусков в данных, содержат лишь простые методы такие, как, например, исключение некомплектных наблюдений, заполнение пропусков средними, заполнение с помощью регрессии или вычисление ковариационной матрицы и вектора средних парными методами и т.

Однако, как было показано выше, эти методы часто дают неудовлетворительные результаты. В этой связи актуальной является разработка статистического программного обеспечения, основанного на новых подходах. Одним из перспективных, сравнительно новым в статистическом анализе методом, считается resamplng-метод, применение которого для задачи заполнения пропусков в неполных 5.

Целью работы является анализ эффективности метода resamplng по сравнению с другими широко применяемыми статистическими методами заполнения пропусков: метод восстановления пропусков Бартлетта; метод восстановления по среднему. Проблема неполных данных и известные методы ее решения Пусть исходные данные представлены в виде матрицы Y n p, строки которой соответствуют n изучаемым объектам, а столбцы представляют собой данные по p переменным, измеряемые для каждого объекта.

В свою очередь категориальные признаки могут быть упорядоченными например, образование или неупорядоченными раса, пол. Причины пропусков данных могут быть самыми разными, поэтому знание механизма, приводящего к отсутствию значений, является ключевым при выборе методов анализа и интерпретации результатов.

Механизм порождения пропусков дает понимание степени важности потерянной информации, ведь неполные данные несут в себе новую информацию, необходимую для исследования, поэтому их важно включать в анализ. Иногда механизм порождения пропусков управляется статистиком. Здесь механизм порождения пропусков процесс извлечения выборки. Если правило извлечения выборки не соблюдается или для некоторых объектов выборки значения отсутствуют, то механизм порождения пропусков не столь ясен.

В этом случае анализ зависит от предположений о механизме образования пропусков, которые следует явно оговаривать. Цензурирование пример ситуации, когда механизм порождения пропусков может быть неуправляемым, но известным статистику.

Данными является время наступления некоторого события смерть животного в эксперименте, рождение ребенка, перегорание лампочки. Для некоторых объектов выборки время события цензурировано, поскольку событие не успело наступить до окончания эксперимента. Если известна точка время цензурирования, то мы имеем частичную информацию о том, что время наступления ненаблюденного события больше времени цензурирования. Такую информацию надо учитывать при анализе, чтобы избежать смещений.

Часто механизм порождения пропусков явно не включают в модель - подразумевается, что этот механизм игнорируется так например, в пакете Statstca 5. В общем случае механизмом пропусков нельзя пренебречь. Методы анализа неполных данных можно условно разбить на следующие группы.

Метод исключения некомплектных объектов. При отсутствии у ряда объектов значений каких-либо переменных некомплектные объекты удаляются из анализа. Подход легко реализуется и может быть удовлетворительным при малом числе пропусков. Однако иногда он приводит к серьезным смещениям и обычно не очень эффективен. Главный недостаток такого подхода обусловлен потерей информации при исключении неполных наблюдений.

Методы с заполнением. Наиболее часто используются следующие процедуры заполнения пропусков. Заполнение средними. Подставляются средние присутствующих значений.

Метод безусловного среднего - самый простой вид заполнения. Он заключается в оценке отсутствующих значений y 5. Среднее наблюдаемых и подставленных значений равно y - оценке методом доступных наблюдений.

Заполнение с пристрастным подбором. Пропуски заполняются значениями, полученными для другого сходного объекта выборки. Процедуру можно описать как метод, при котором подстановка выбирается для каждого пропущенного значения по оценке распределения в отличие от заполнения пропусков средними, когда подставляется среднее распределения. В большинстве приложений эмпирическое распределение задается присутствующими значениями, поэтому при заполнении с подбором подставляются различные значения из данных для сходных объектов без пропусков.

Наиболее часто используемые методы: подстановка с подбором внутри групп и подбор ближайшего соседа. В первом случае формируются группы, и пропуски в каждой группе заполняются присутствующими значениями из нее же. Заполнение с подбором широко распространено. Оно может включать очень сложные схемы отбора объектов. Хотя практика подтвердила достоинства этого метода, литературы, посвященной его теоретическим свойствам, явно недостаточно. Второй подход основан на введении метрики d для измерения расстояния между объектами, определенного в пространстве сопутствующих переменных, и выборе подстановки по объекту с присутствующим значением, ближайшему к объекту с пропуском.

Например, обозначим x, Мы можем выбирать подстановку для y из тех k-x объектов, у которых: наблюдаются y k, x k, Схемы ближайшего соседа требуют значительных вычислительных затрат. Они стали применяться сравнительно недавно. Заполнение с помощью регрессии. Когда пропущенные значения оцениваются с помощью регрессии на присутствующие для анализируемого объекта переменные.

В частности, к этой группе относится метод заполнения условными средними или так называемый метод Бака. Метод является более перспективным способом заполнения пропусков по сравнению с предыдущими методами. Он заключается в подстановке средних, условных по присутствующим в наблюдении переменным и относится к модельным методам. Если переменные Y, Подставляя значения переменных, присутствующих для данного наблюдения, в регрессионное уравнение, получаем прогноз пропущенных переменных для этого наблюдения.

Вычисление регрессионных уравнений для различной структуры пропусков может показаться затруднительным, но на деле оно относительно просто, если использовать оператор свертки. Данные, заполненные по методу Бака, обеспечивают разумные оценки средних, в частности, если приемлемо предположение о нормальности наблюдений. Выборочная ковариационная матрица по заполненным данным занижает величину дисперсии и ковариаций, хотя и не так сильно, как при подстановке безусловных средних. Также среди методов с заполнением можно выделить: заполнение без подбора, многократного заполнения, составные и другие методы.

Методы взвешивания. Рандомизированные выводы по данным выборочных обследований с пропусками построены на весах плана, обратно пропорциональных вероятности выбора. Пусть y значение переменной Y -го объекта популяции. Методы взвешивания изменяют веса, чтобы учесть отсутствие значений. Взвешивание связано с заполнением средними.

Например, если веса плана постоянны в подгруппах выборки, то заполнение пропусков в каждой подгруппе средними подгруппы и взвешивание присутствующих значений с помощью их доли в каждой подгруппе ведут к одинаковым оценкам среднего популяции, хотя оценки выборочной дисперсии различны, если только не используются поправки на заполнение средними.

Методы, основанные на моделировании. Широкий класс методов основывается на построении модели порождения пропусков. Выводы получают с помощью функции правдоподобия, построенной при условии справедливости этой модели, с оцениванием параметров методами типа максимального правдоподобия. В методах, использующих функцию правдоподобия, реализована относительно старая идея обработки неполных данных: заполнение пропусков оценками пропущенных значений; оценивание параметров; повторное оценивание пропущенных значений оценки параметров считаются точными ; повторное оценивание параметров и так далее до сходимости процесса.

Преимущества такого подхода состоят в том, что он гибок; позволяет отказаться от методов, разработанных для частных случаев; позволяет оценивать в приближении большой выборки дисперсии оценок с помощью матрицы вторых производных функций правдоподобия для неполных данных; обеспечивает надежную сходимость, то есть в определенных нестрогих условиях каждая итерация увеличивает логарифм правдоподобия и последовательность сходится к некоторому стационарному значению.

Недостаток алгоритма заключается в том, что скорость сходимости может быть очень низкой, если пропущено много данных.

Исследуемые методы заполнения пропущенных значений Рисунок. Монотонная структура с пропусками в одной переменной Y Рассмотрим задачу с пропусками в зависимой переменной. Такие данные можно представить рисунок, где X представляет собой матрицу nxp, а пропущенные значения представляют n-m объектов Y. При обычном анализе неполных данных используют предположение, что данные отсутствуют случайно, то есть предполагают, что вероятность пропуска y может меняться в зависимости от переменных плана, но при данном значении строки X, вероятность отсутствия y не зависит от x, -й y.

В практических приложениях следует проверять допустимость такого предположения. При подстановке оценок пропущенных значений вместо пропусков следует уделить внимание таким вопросам, как выбор значений для подстановки и модификации методов с целью учета этих подстановок.

Рассмотрим ситуацию, когда X некоторые задаваемые исследователем факторы, а Y зависимая от этих факторов переменная. Поскольку в эксперименте значения факторов задаются статистиком, то пропуски, если они есть, содержатся в выходной переменной Y намного чаще, чем в значениях факторов X.

Поэтому мы ограничимся ситуацией, когда пропуски только в Y. Допустим, что каждый пропуск y заполняется начальным значением, чтобы вектор значений Y был полон. Пусть Z n x m-матрица m сопутствующих переменных пропусков. По определению я сопутствующая переменная пропусков это индикатор го пропущенного значения, то есть всегда, за исключением случая, когда пропущено е значение, тогда она равна. При ковариационном анализе используется и X, и Z для предсказания Y.

Рассмотрим метод для нашей задачи. Она минимизирует вторую сумму в выражении 5. В работе Бартлетта все y вычислительной точки зрения использование в качестве приравниваются по этому методу к нулю, но с общего среднего более привлекательно и дает точную сумму квадратов отклонений от среднего доказательство в книге [].

Сегодня создано множество методов восстановления пропусков, однако единая методология обработки подобных данных отсутствует, несмотря на ее. ство методов восстановления пропусков);. 3) существенные пропуски данных​, если их веро- методом) и двумя сложными методами (Барлетта и.

В работе предложен метод восстановления многомерных данных, полученных в ходе социально-экономических исследований. Основное преимущество метода заключается в использовании восстанавливающих признаков различной природы, что существенно расширяет диапазон применения метода. Предложены методы оценки качества восстановления, основанные на использовании процедуры скользящего экзамена.

Разработка и исследование новых версий алгоритма zet заполнения пробелов в эмпирических таблицах.

Часто в данных, с которыми необходимо работать, присутствуют пропуски, в результате чего аналитик оказывается перед выбором: игнорировать, отбросить или же заполнить пропущенные значения. Заполнение пропусков зачастую, и вполне обоснованно, кажется более предпочтительным решением.

Лабораторная работа № 1 «Алгоритмы заполнения пропущенных значений в таблицах данных»

Цель работы: ознакомиться с основными алгоритмами заполнения пропущенных значений в эмпирических таблицах данных. Исследовать, программно реализовать и оценить работу алгоритмов многомерной линейной регрессии, среднего арифметического и ЕМ-алгоритма. Изучить и программно реализовать любая среда разработки алгоритмы многомерной линейной регрессии, среднего арифметического и ЕМ-алгоритм. Занести в таблицу табл. Ход работы код программы основные модули , таблицы с результатами экспериментов, оценка качества работы алгоритмов в зависимости от объема пропущенных значений. На какие группы можно разделить алгоритмы заполнения пропущенных значений?

E-mal: Paper revews the current state the problem of statstcal analyss wth mssng data and the methods of t decson. The usng of resamplng for ths task s offered. The ams of the work are the demonstraton of possbltes resamplng for ths task and nvestgaton the effectveness of resamplng method and classcal methods: Bartlett and means for regresson analyss wth mssng data n dependent varable. Keywords: mssng data, regresson analyss. Введение При проведении статистического анализа на практике ограничиваются анализом не всей генеральной совокупности в целом, а лишь некоторого выборочного числа наблюдений. Анализируемая выборка должна отвечать критериям качественности и полноты. В реальности приходится сталкиваться с ситуацией, когда некоторые из свойств одного или нескольких объектов отсутствуют возникает ситуация данных с пропусками, что значительно осложняет математическую обработку, так как смещение основных статистических характеристик, таких как математическое ожидание или дисперсия, например, возрастает прямо пропорционально числу пропусков. К возникновению пропусков в исходных данных может привести множество причин: например, отсутствие значений вследствие каких-то мелких поломок оборудования, не связанных с экспериментальным процессом, или нежелание респондента при проведении статистического опроса отвечать на вопросы о своих доходах.

Похожие публикации
Яндекс.Метрика