Статистическое моделирование. Статистическая модель и задачи математической статистики Статистические модели не используются для

Статистическое моделирование — базовый метод моделирования, заключающийся в том, что модель испытывается множеством случайных сигналов с заданной плотностью вероятности. Целью является статистическое определение выходных результатов. В основе статистического моделирования лежит метод Монте-Карло . Напомним, что имитацию используют тогда, когда другие методы применить невозможно.

Метод Монте-Карло

Рассмотрим метод Монте-Карло на примере вычисления интеграла, значение которого аналитическим способом найти не удается.

Задача 1 . Найти значение интеграла:

На рис. 21.1 представлен график функции f (x ) . Вычислить значение интеграла этой функции — значит, найти площадь под этим графиком.

Рис. 21.1. Определение значения интеграла
методом Монте-Карло

Ограничиваем кривую сверху, справа и слева. Случайным образом распределяем точки в прямоугольнике поиска. Обозначим через N 1 количество точек, принятых для испытаний (то есть попавших в прямоугольник, эти точки изображены на рис. 21.1 красным и синим цветом), и через N 2 — количество точек под кривой, то есть попавших в закрашенную площадь под функцией (эти точки изображены на рис. 21.1 красным цветом). Тогда естественно предположить, что количество точек, попавших под кривую по отношению к общему числу точек пропорционально площади под кривой (величине интеграла) по отношению к площади испытуемого прямоугольника. Математически это можно выразить так:

Рассуждения эти, конечно, статистические и тем более верны, чем большее число испытуемых точек мы возьмем.

Фрагмент алгоритма метода Монте-Карло в виде блок-схемы выглядит так, как показано на рис. 21.2 .

Рис. 21.2. Фрагмент алгоритма реализации
метода Монте-Карло

Значения r 1 и r 2 на рис. 21.2 являются равномерно распределенными случайными числами из интервалов (x 1 ; x 2) и (c 1 ; c 2) соответственно.

Метод Монте-Карло чрезвычайно эффективен, прост, но необходим «хороший» генератор случайных чисел. Вторая проблема применения метода заключается в определении объема выборки, то есть количества точек, необходимых для обеспечения решения с заданной точностью. Эксперименты показывают: чтобы увеличить точность в 10 раз, объем выборки нужно увеличить в 100 раз; то есть точность примерно пропорциональна корню квадратному из объема выборки:

Схема использования метода Монте-Карло при исследовании
систем со случайными параметрами

Построив модель системы со случайными параметрами, на ее вход подают входные сигналы от генератора случайных чисел (ГСЧ), как показано на рис. 21.3 . ГСЧ устроен так, что он выдает равномерно распределенные случайные числа r рр из интервала . Так как одни события могут быть более вероятными, другие — менее вероятными, то равномерно распределенные случайные числа от генератора подают на преобразователь закона случайных чисел (ПЗСЧ), который преобразует их в заданный пользователем закон распределения вероятности, например, в нормальный или экспоненциальный закон. Эти преобразованные случайные числа x подают на вход модели. Модель отрабатывает входной сигнал x по некоторому закону y = φ (x ) и получает выходной сигнал y , который также является случайным.

Рис. 21.3. Общая схема метода статистического моделирования

В блоке накопления статистики (БНСтат) установлены фильтры и счетчики. Фильтр (некоторое логическое условие) определяет по значению y , реализовалось ли в конкретном опыте некоторое событие (выполнилось условие, f = 1 ) или нет (условие не выполнилось, f = 0 ). Если событие реализовалось, то счетчик события увеличивается на единицу. Если событие не реализовалось, то значение счетчика не меняется. Если требуется следить за несколькими разными типами событий, то для статистического моделирования понадобится несколько фильтров и счетчиков N i . Всегда ведется счетчик количества экспериментов — N .

Далее отношение N i к N , рассчитываемое в блоке вычисления статистических характеристик (БВСХ) по методу Монте-Карло, дает оценку вероятности p i появления события i , то есть указывает на частоту его выпадения в серии из N опытов. Это позволяет сделать выводы о статистических свойствах моделируемого объекта.

Например, событие A совершилось в результате проведенных 200 экспериментов 50 раз. Это означает, согласно методу Монте-Карло, что вероятность совершения события равна: p A = 50/200 = 0.25 . Вероятность того, что событие не совершится, равна, соответственно, 1 – 0.25 = 0.75 .

Обратите внимание: когда говорят о вероятности, полученной экспериментально, то ее называют частостью ; слово вероятность употребляют, когда хотят подчеркнуть, что речь идет о теоретическом понятии.

При большом количестве опытов N частота появления события, полученная экспериментальным путем, стремится к значению теоретической вероятности появления события.

В блоке оценки достоверности (БОД) анализируют степень достоверности статистических экспериментальных данных, снятых с модели (принимая во внимание точность результата ε , заданную пользователем) и определяют необходимое для этого количество статистических испытаний. Если колебания значений частоты появления событий относительно теоретической вероятности меньше заданной точности, то экспериментальную частоту принимают в качестве ответа, иначе генерацию случайных входных воздействий продолжают, и процесс моделирования повторяется. При малом числе испытаний результат может оказаться недостоверным. Но чем более испытаний, тем точнее ответ, согласно центральной предельной теореме.

Заметим, что оценивание ведут по худшей из частот. Это обеспечивает достоверный результат сразу по всем снимаемым характеристикам модели.

Пример 1 . Решим простую задачу. Какова вероятность выпадения монеты орлом кверху при падении ее с высоты случайным образом?

Начнем подбрасывать монетку и фиксировать результаты каждого броска (см. табл. 21.1).

Таблица 21.1.
Результаты испытаний бросания монеты
Количество опытов N 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Значение счетчика
выпадения орла N о
0 0 1 1 2 3 4
Значение счетчика
выпадения решки N р
1 2 2 3 3 3 3
Частость выпадения
орла P о =N о /N
0 0 0.33 0.25 0.4 0.5 0.57
Частость выпадения
решки P р =N р /N
1 1 0.66 0.75 0.6 0.5 0.43

Будем подсчитывать частость выпадения орла как отношение количества случаев выпадения орла к общему числу наблюдений. Посмотрите в табл. 21.1. случаи для N = 1 , N = 2 , N = 3 — сначала значения частости нельзя назвать достоверными. Попробуем построить график зависимости P о от N — и посмотрим, как меняется частость выпадения орла в зависимости от количества проведенных опытов. Разумеется, при различных экспериментах будут получаться разные таблицы и, следовательно, разные графики. На рис. 21.4 показан один из вариантов.

Рис. 21.4. Экспериментальная зависимость частости появления случайного события
от количества наблюдений и ее стремление к теоретической вероятности

Сделаем некоторые выводы.

  1. Видно, что при малых значениях N , например, N = 1 , N = 2 , N = 3 ответу вообще доверять нельзя. Например, P о = 0 при N = 1 , то есть вероятность выпадения орла при одном броске равна нулю! Хотя всем хорошо известно, что это не так. То есть пока мы получили очень грубый ответ. Однако, посмотрите на график: в процессе накопления информации ответ медленно, но верно приближается к правильному (он выделен пунктирной линией). К счастью, в данном конкретном случае правильный ответ нам известен: в идеале, вероятность выпадения орла равна 0.5 (в других, более сложных задачах, ответ нам, конечно, будет неизвестен). Допустим, что ответ нам надо знать с точностью ε = 0.1 . Проведем две параллельные линии, отстоящие от правильного ответа 0.5 на расстояние 0.1 (см. рис. 21.4 ). Ширина образовавшегося коридора будет равна 0.2. Как только кривая P о (N ) войдет в этот коридор так, что уже никогда его не покинет, можно остановиться и посмотреть, для какого значения N это произошло. Это и есть экспериментально вычисленное критическое значение необходимого количества опытов N кр э для определения ответа с точностью ε = 0.1 ; ε -окрестность в наших рассуждениях играет роль своеобразной трубки точности. Заметьте, что ответы P о (91) , P о (92) и так далее уже не меняют сильно своих значений (см. рис. 21.4 ); по крайней мере, у них не изменяется первая цифра после запятой, которой мы обязаны доверять по условиям задачи.
  2. Причиной такого поведения кривой является действие центральной предельной теоремы (см. лекцию 25 и лекцию 34). Пока здесь мы сформулируем ее в самом простом варианте «Сумма случайных величин есть величина неслучайная». Мы использовали среднюю величину P о , которая несет в себе информацию о сумме опытов, и поэтому постепенно эта величина становится все более достоверной.
  3. Если проделать еще раз этот опыт сначала, то, конечно, его результатом будет другой вид случайной кривой. И ответ будет другим, хотя примерно таким же. Проведем целую серию таких экспериментов (см. рис. 21.5 ). Такая серия называется ансамблем реализаций . Какому же ответу в итоге следует верить? Ведь они, хоть и являются близкими, все же разнятся. На практике поступают по-разному. Первый вариант — вычислить среднее значение ответов за несколько реализаций (см. табл. 21.2).
Рис. 21.5. Экспериментально снятый ансамбль случайных зависимостей
частости появления случайного события от количества наблюдений

Мы поставили несколько экспериментов и определяли каждый раз, сколько необходимо было сделать опытов, то есть N кр э . Было проделано 10 экспериментов, результаты которых были сведены в табл. 21.2. По результатам 10-ти экспериментов было вычислено среднее значение N кр э .

Таблица 21.2.
Экспериментальные данные
необходимого количества бросков монеты
для достижения точности ε = 0.1
при вычислении вероятности выпадения орла
Опыт N кр э
1 288
2 95
3 50
4 29
5 113
6 210
7 30
8 42
9 39
10 48
Среднее N кр. э 94

Таким образом, проведя 10 реализаций разной длины, мы определили, что достаточно в среднем было сделать 1 реализацию длиной в 94 броска монеты.

Еще один важный факт. Внимательно рассмотрите график на рис. 21.5 . На нем нарисовано 100 реализаций — 100 красных линий. Отметьте на нем абсциссу N = 94 вертикальной чертой. Есть какой-то процент красных линий, которые не успели пересечь ε -окрестность, то есть (P эксп – ε P теор ≤ P эксп + ε ), и войти в коридор точности до момента N = 94 . Обратите внимание, таких линий 5. Это значит, что 95 из 100, то есть 95%, линий достоверно вошли в обозначенный интервал.

Таким образом, проведя 100 реализаций, мы добились примерно 95%-ного доверия к полученной экспериментально величине вероятности выпадения орла, определив ее с точностью 0.1. Для сравнения полученного результата вычислим теоретическое значение N кр т теоретически. Однако для этого придется ввести понятие доверительной вероятности Q F , которая показывает, насколько мы готовы верить ответу. Например, при Q F = 0.95 мы готовы верить ответу в 95% случаев из 100. Формула теоретического расчета числа экспериментов, которая будет подробно изучаться в лекции 34 , имеет вид: N кр т = k (Q F ) · p · (1 – p )/ε 2 , где k (Q F ) — коэффициент Лапласа, p — вероятность выпадения орла, ε — точность (доверительный интервал). В табл. 21.3 показаны значения теоретической величины количества необходимых опытов при разных Q F (для точности ε = 0.1 и вероятности p = 0.5 ).

Как видите, полученная нами оценка длины реализации, равная 94 опытам очень близка к теоретической, равной 96. Некоторое несовпадение объясняется тем, что, видимо, 10 реализаций недостаточно для точного вычисления N кр э . Если вы решите, что вам нужен результат, которому следует доверять больше, то измените значение доверительной вероятности. Например, теория говорит нам, что если опытов будет 167, то всего 1-2 линии из ансамбля не войдут в предложенную трубку точности. Но имейте в виду, количество экспериментов с ростом точности и достоверности растет очень быстро.

Второй вариант, используемый на практике — провести одну реализацию и увеличить полученное для нее N кр э в 2 раза . Это считают хорошей гарантией точности ответа (см. рис. 21.6 ).

Рис. 21.6. Иллюстрация экспериментального определения N кр э по правилу «умножь на два»

Если присмотреться к ансамблю случайных реализаций , то можно обнаружить, что сходимость частости к значению теоретической вероятности происходит по кривой, соответствующей обратной квадратичной зависимости от числа экспериментов (см. рис. 21.7 ).

Рис. 21.7. Иллюстрация скорости схождения экспериментально получаемой частости
к теоретической вероятности

Это действительно так получается и теоретически. Если изменять задаваемую точность ε и исследовать количество экспериментов, требуемых для обеспечения каждой из них, то получится табл. 21.4.

Построим по табл. 21.4 график зависимости N кр т (ε ) (см. рис. 21.8 ).

Рис. 21.8. Зависимость числа экспериментов, требуемых для достижения
заданной точности ε при фиксированном Q F = 0.95

Итак, рассмотренные графики подтверждают приведенную выше оценку:

Заметим, что оценок точности может быть несколько. Некоторые из них будут еще обсуждаться в лекции 34 .

Пример 2. Нахождение площади фигуры методом Монте-Карло . Определите методом Монте-Карло площадь пятиугольника с координатами углов (0, 0), (0, 10), (5, 20), (10, 10), (7, 0).

Нарисуем в двухмерных координатах заданный пятиугольник, вписав его в прямоугольник, чья площадь, как нетрудно догадаться, составляет (10 – 0) · (20 – 0) = 200 (см. рис. 21.9 ).

Рис. 21.9. Иллюстрация к решению задачи
о площади фигуры методом Монте-Карло

Используем таблицу случайных чисел для генерации пар чисел R , G , равномерно распределенных в интервале от 0 до 1. Число R X (0 ≤ X ≤ 10) , следовательно, X = 10 · R . Число G будет имитировать координату Y (0 ≤ Y ≤ 20) , следовательно, Y = 20 · G . Сгенерируем по 10 чисел R и G и отобразим 10 точек (X ; Y ) на рис. 21.9 и в табл. 21.5.

Таблица 21.5.
Решение задачи методом Монте-Карло
Номер точки R G X Y Точка (X; Y) попала в прямоугольник? Точка (X; Y) попала в пятиугольник?
1 0.8109 0.3557 8.109 7.114 Да Да
2 0.0333 0.5370 0.333 10.740 Да Нет
3 0.1958 0.2748 1.958 5.496 Да Да
4 0.6982 0.1652 6.982 3.304 Да Да
5 0.9499 0.1090 9.499 2.180 Да Нет
6 0.7644 0.2194 7.644 4.388 Да Да
7 0.8395 0.4510 8.395 9.020 Да Да
8 0.0415 0.6855 0.415 13.710 Да Нет
9 0.5997 0.1140 5.997 2.280 Да Да
10 0.9595 0.9595 9.595 19.190 Да Нет
Всего: 10 6

Статистическая гипотеза заключается в том, что количество точек, попавших в контур фигуры, пропорционально площади фигуры: 6:10 = S :200 . То есть, по формуле метода Монте-Карло, получаем, что площадь S пятиугольника равна: 200 · 6/10 = 120 .

Проследим, как менялась величина S от опыта к опыту (см. табл. 21.6).

Таблица 21.6.
Оценка точности ответа
Количество испытаний N Оценка вероятности попадания случайной точки в испытуемую область Оценка площади S методом Монте-Карло
1 1/1 = 1.00 200
2 1/2 = 0.50 100
3 2/3 = 0.67 133
4 3/4 = 0.75 150
5 3/5 = 0.60 120
6 4/6 = 0.67 133
7 5/7 = 0.71 143
8 5/8 = 0.63 125
9 6/9 = 0.67 133
10 6/10 = 0.60 120

Поскольку в ответе все еще меняется значение второго разряда, то возможная неточность составляет пока больше 10%. Точность расчета может быть увеличена с ростом числа испытаний (см. рис. 21.10 ).

Рис. 21.10. Иллюстрация процесса сходимости определяемого
экспериментально ответа к теоретическому результату

Допущения, воплощенные в статистическом моделировании, описывают набор вероятностных распределений, некоторые из которых, как предполагается, адекватно приближают распределение. Из определения отбирается конкретный набор данных. Распределения вероятностей, присущие статистическому моделированию, - это то, что отличает статистические модели от других, не статистических, математических моделей.

Связь с математикой

Этот научный метод коренится, прежде всего, в математике. Статистическое моделирование систем обычно задается математическими уравнениями, которые связывают одну или несколько случайных величин и, возможно, других неслучайных переменных. Таким образом, статистическая модель является «формальным представлением теории» (Герман Адер, цитируя Кеннета Боллена).

Все статистические проверки гипотез и все статистические оценки получены из статистических моделей. В более общем смысле, статистические модели являются частью основы статистического вывода.

Методы статистического моделирования

Неформально статистическая модель может рассматриваться как статистическое допущение (или набор статистических допущений) с определенным свойством: это допущение позволяет нам вычислять вероятность любого события. В качестве примера рассмотрим пару обычных шестигранных кубиков. Мы будем изучать два различных статистических предположения о кости.

Первое статистическое предположение составляет статистическую модель, потому что только с одним допущением мы можем вычислить вероятность любого события. Альтернативное статистическое допущение не составляет статистической модели, потому что только с одним допущением мы не можем рассчитать вероятность каждого события.

В приведенном выше примере с первым допущением вычислить вероятность события легко. Однако в некоторых других примерах расчет может быть сложным или даже непрактичным (например, это может потребовать миллионов лет вычислений). Для предположения, составляющего статистическую модель, такая трудность является приемлемой: выполнение вычисления не должно быть практически осуществимым, просто теоретически возможным.

Примеры моделей

Предположим, что у нас есть популяция школьников с равномерно распределенными по возрасту детьми. Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 5 футов (примерно 152 см). Мы могли бы формализовать эту взаимосвязь в модели линейной регрессии, например: рост = b0 + b1agei + εi, где b0 - пересечение, b1 - параметр, на который умножается возраст при получении прогноза роста, εi - термин ошибки. Это подразумевает, что рост предсказывается возрастом с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (heighti = b0 + b1agei) не может быть уравнением для модели данных - если только она точно не соответствует всем точкам данных, то есть все точки данных идеально лежат на линии. Член ошибки εi должен быть включен в уравнение, чтобы модель соответствовала всем точкам данных.

Чтобы сделать статистический вывод, нам сначала необходимо принять некоторые вероятностные распределения для εi. Например, мы можем предположить, что распределения εi являются Гауссовскими, с нулевым средним параметром. В этом случае модель будет иметь 3 параметра: b0, b1 и дисперсию распределения Гаусса.

Общее описание

Это особый класс математической модели. Что отличает статистическую модель от других математических моделей, так это то, что она недетерминирована. С ее помощью осуществляется моделирование статистических данных. Таким образом, в статистической модели, определенной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, а вместо этого имеют распределения вероятностей; то есть некоторые переменные являются стохастическими. В приведенном выше примере ε является стохастической переменной; без этой переменной модель была бы детерминированной.

Статистические модели часто используются в статистическом анализе и моделировании, даже если моделируемый физический процесс является детерминированным. Например, подбрасывание монет в принципе является детерминированным процессом; все же это обычно моделируется как стохастический (через процесс Бернулли).

Параметрические модели

Являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Как правило, они включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». Как и все прочие упомянутые модели, также часто используются в статистическом методе математического моделирования.

Многоуровневые модели

Многоуровневые модели (так же известные, как иерархические линейные модели, модели с вложенными данными, смешанные модели, случайные коэффициенты, модели со случайными эффектами, модели со случайными параметрами или модели с разделением на участки) являются статистическими моделями параметров, которые варьируются на более чем одном уровне. Примером может служить модель успеваемости учащихся, которая содержит показатели для отдельных учащихся, а также показатели для классных комнат, в которые сгруппированы студенты. Эти модели можно рассматривать как обобщения линейных моделей (в частности, линейной регрессии), хотя они также могут распространяться на нелинейные модели. Эти модели стали намного популярнее после того, как стали доступны достаточные вычислительные мощности и программное обеспечение.

Многоуровневые модели особенно подходят для исследовательских проектов, где данные для участников организованы на более чем одном уровне (то есть, вложенные данные). Единицами анализа обычно являются отдельные лица (на более низком уровне), которые вложены в контекстные / совокупные единицы (на более высоком уровне). В то время как самый низкий уровень данных в многоуровневых моделях, как правило, индивидуальный, повторные измерения отдельных лиц также могут быть рассмотрены. Таким образом, многоуровневые модели предоставляют альтернативный тип анализа для одномерного или многомерного анализа повторных измерений. Индивидуальные различия в кривых роста могут быть рассмотрены. Кроме того, многоуровневые модели могут использоваться в качестве альтернативы ANCOVA, где баллы по зависимой переменной корректируются для ковариат (например, индивидуальных различий) перед тестированием различий в лечении. Многоуровневые модели способны анализировать эти эксперименты без предположения об однородности наклонов регрессии, что требуется ANCOVA.

Многоуровневые модели можно использовать для данных со многими уровнями, хотя двухуровневые модели являются наиболее распространенными, и остальная часть этой статьи посвящена только этим. Зависимая переменная должна быть исследована на самом низком уровне анализа.

Выбор модели

Выбор модели - это задача выбора из набора моделей-кандидатов с учетом данных, осуществляемая в рамках статистического моделирования. В простейших случаях рассматривается уже существующий набор данных. Тем не менее задача может также включать планирование экспериментов таким образом, чтобы собранные данные хорошо подходили для задачи выбора модели. Учитывая модели-кандидаты с аналогичной предсказательной или объяснительной силой, простейшая модель, скорее всего, будет лучшим выбором (бритва Оккама).

Представители компании Konishi & Kitagawa заявляют: «Большинство проблем статистического вывода можно считать проблемами, связанными со статистическим моделированием». Аналогичным образом, Кокс сказал: «Как осуществляется перевод предметной проблемы в статистическую модель, часто является наиболее важной частью анализа».

Выбор модели может также относиться к проблеме выбора нескольких репрезентативных моделей из большого набора вычислительных моделей для целей принятия решений или оптимизации в условиях неопределенности.

Графические модели

Графическая модель, или вероятностная графическая модель, (PGM) или структурированная вероятностная модель, - это вероятностная модель, для которой график выражает структуру условной зависимости между случайными величинами. Они обычно используются в теории вероятностей, статистике (особенно в байесовской статистике), и в машинном обучении.

Эконометрические модели

Эконометрические модели - это статистические модели, используемые в эконометрике. Эконометрическая модель определяет статистические отношения, которые, как полагают, существуют между различными экономическими величинами, относящимися к конкретному экономическому явлению. Эконометрическая модель может быть получена из детерминированной экономической модели, учитывающей неопределенность, или из экономической модели, которая сама является стохастической. Тем не менее также можно использовать эконометрические модели, которые не привязаны к какой-либо конкретной экономической теории.

Статическое моделирование - представление или описание некоторого феномена или системы взаимосвязей между явлениями посредством набора переменных (показателей, признаков) и статистических взаимосвязей между ними. Цель статического моделирования (как и любого другого моделирования) - представить наиболее существенные черты изучаемого феномена в наглядном и доступном для изучения виде. Все статистические модели предназначены, в конечном счете, для измерения силы и направления связей между двумя или более переменными. Наиболее сложные модели позволяют также судить о структуре связей между несколькими переменными. Большинство статистических моделей можно условно разделить на корреляционные, структурные и причинные. Корреляционные модели используются для измерения парных "ненаправленных" связей между переменными, т.е. таких связей, в которых причинная компонента отсутствует либо игнорируется. Примерами таких моделей являются коэффициент парной линейной корреляции Пирсона, ранговые коэффициенты парной и множественной корреляции, большинство мер связи, разработанных для таблиц сопряженности (за исключением теоретико-информационных коэффициентов и логарифмически-линейного анализа).

Структурные модели в статическом моделировании предназначены для исследования структуры некоторого множества переменных либо объектов. Исходными данными для изучения структуры связей между несколькими переменными является матрица корреляций между ними. Анализ корреляционной матрицы может осуществляться вручную либо с помощью методов многомерного статистического анализа - факторного, кластерного, метода многомерного шкалирования. Во многих случаях исследование структуры связей между переменными является предварительным этапом при решении более сложной задачи - снижения размерности пространства признаков.

Для исследования структуры совокупности объектов применяются методы кластерного анализа и многомерного шкалирования. В качестве исходных данных используется матрица расстояний между ними. Расстояние между объектами тем меньше, чем больше объекты "похожи" друг на друга в смысле значений, измеренных на них переменных; если значения всех переменных для двух объектов совпадают, расстояние между ними равно нулю. В зависимости от целей исследования, структурные модели могут быть представлены в виде матриц (корреляций, расстояний), факторной структуры либо визуально. Результаты кластерного анализа чаще всего представляются в виде дендрограммы; результаты факторного анализа и многомерного шкалирования - в виде диаграммы рассеяния. Структура матрицы корреляций может быть также представлена в виде графа, отражающего наиболее существенные связи между переменными. Причинные модели предназначены для исследования причинных связей между двумя или несколькими переменными. Переменные, измеряющие явления-причины, называются в статистике независимыми переменными или предикторами; переменные, измеряющие явления-следствия, называются зависимыми. Большинство причинных статистических причинных моделей предполагают наличие одной зависимой переменной и одного или нескольких предикторов. Исключение составляют линейно-структурные модели, в которых может одновременно использоваться несколько зависимых переменных, а некоторые переменные могут в одно и то же время выступать в качестве зависимых по отношению к одним показателям и в качестве предикторов по отношению к другим.

Различают две области применения метода статистического моделирования: статическое имитационное моделирование планирование

  • - для изучения стохастических систем;
  • - для решения детерминированных задач.

Основной идеей, которая используется для решения детерминированных задач методом статистического моделирования, является замена детерминированной задачи эквивалентной схемой некоторой стохастической системы, выходные характеристики последней совпадают с результатом решения детерминированной задачи. При такой замене погрешность уменьшается с увеличением числа испытаний (реализации моделирующего алгоритма) N.

В результате статистического моделирования системы S получается серия частных значений искомых величин или функций, статистическая обработка которых позволяет получить сведения о поведении реального объекта или процесса в произвольные моменты времени. Если количество реализации N достаточно велико, то полученные результаты моделирования системы приобретают статистическую устойчивость и с достаточной точностью могут быть приняты в качестве оценок искомых характеристик процесса функционирования системы S.

Этот раздел предполагает, что у читателя есть некоторые познания в статистической методологии, в особенности в регрессионном анализе и дисперсионном анализе. Позже сделаем некоторые более честолюбивые предположения, а именно, что что-то известно об общей линейной модели и нелинейной регрессии.

Требования для подгонки статистической модели достаточно хорошо определены для разработки универсального, применимого для широкого спектра задач инструментария.

R обеспечивает набор взаимосвязанных инструментов, который делает очень простой подгонку статистических моделей. Как упоминалось во введении, по умолчанию отображается минимальный набор результатов, и нужно запрашивать подробности при обращении к функциям вывода.

    1. Определение статистических моделей; формулы

Шаблон для статистической модели - линейная регрессионная модель с независимыми, гомоскедастичными ошибками:

В матричном виде можно записать:

y = Xβ + e

где y - вектор отклика,X матрица модели или матрица проекта и имеет столбцыx 0 ; x 1 …. ; x p определяющих переменных. Очень частоx 0 будет столбцом, дающий параметр смещения.

Примеры

Прежде чем дать формальное определение, несколько примеров помогут составить общее представление. Предположим, что y, x, x0, x1, x2 ... числовые переменные,X матрица иA, B, C ...

являются факторами. Ниже следующие формулы задают статистические модели, справа даны описания моделей.

y ~ x y ~ 1 + x

Обе подразумевают одинаковую простую линейную регрессионную модель y на

x . У первой есть неявный параметр смещения, а у второй - явный.

y ~ 0 + x y ~-1 + x y ~ x - 1

Простая линейная регрессия y наx через источник (то есть, без параметра смещения).log (y) ~ x1 + x2

Множественная регрессия преобразованной переменной log(y) наx1 иx2 (с неявным параметром смещения).

y ~ poly (x, 2) y ~ 1 + x + I(x^2) Параболическая регрессияy наx степени 2. Первая форма использует ортогональные полиномы, вторая использует явную степень, как основание.y ~ X + poly (x, 2)

Множественная регрессия y с модельной матрицей, состоящей из матрицыX , включая параметр полиномаx степени 2.y ~ A

Модель дисперсионного анализа одиночной классификации y с классами, определенными A.y ~ A+ x

Модель ковариационного анализа одиночной классификации y с классами, определеннымиA , и с ковариантомx .

y ~ A*B y ~ + B + A:B y ~ B %in % A y ~ A/B

Модель двух факторного дисперсионного анализа y поA иB . Первые две специфицируют одинаковую кросс классификацию, а вторые две специфицируют одинаковую вложенную классификацию.

В абстрактных понятиях все четыре специфицируют одинаковое подмножество моделей. y ~ (A+ B + C) ^2 y ~ A*B*C - A:B:C

Трех факторный эксперимент, но с моделью, содержащей основные эффекты и факторы попарного взаимодействия. Обе формулы специфицируют одинаковую модель. y ~ A * x y ~ A/x y ~ A / (1 + x) - 1

Изолированные модели простой линейной регрессии y наx в пределах уровней заданных вA различными метками. В последнем виде производит четко столько вычислений различных отсекаемых отрезков и коэффициентов наклона, сколько имеется уровнейA.

y ~ A*B + Error(C)

Эксперимент с двумя факторами воздействия A и B, и стратифицированной ошибкой, определяемой факторомC . Например, разделить отображение эксперимента на участки (и, следовательно, части рисунка), определяемые факторомC .

Оператор ~ используется для определения формулы модели в R . Форма для простой линейной модели:response ~ op_1 term_1 op_2 term_2 op_3 term_3 ... где:

response - вектор или матрица (или оценка выражения к вектору или матрице), определяющая переменную (ые) отклика.

op_i - оператор, или “+” или “-“, подразумевая включение или исключение параметра в модели (первое является дополнительным).term_i также является либо:

    векторным или матричным выражением, или 1, либо

    фактор, либо

    выражением формулы, состоящей из факторов, векторов или матриц, соединенных операторами формулы.

Во всех случаях каждый параметр определяет набор столбцов либо для добавления к матрице модели, либо для удаления из матрицы модели. 1 устанавливается для столбца смещения и по умолчанию включена в матрицу модели, если явно не удалена.

Операторы формулы подобны нотации Уилкинсона и Роджерса, используемой такими программами как Glim и Genstat. Одно неизбежное изменение то, что оператор "." становится ‘:’ так как точка является допустимым символом имени в R.

В итоге ниже получена нотация (основано на Chambers & Hastie, 1992, p.29):

Y ~ М Y смоделирован как М.

M_1 + M_2 Включают М_1 и М_2.

M_1 - M_2 Включают М_1 и исключают параметр М_2.

M_1: M_2 Тензорное произведение М_1 и М_2. Если оба параметра - факторы, то фактор "подклассов". M_1 %in % M_2

Подобно M_1:M_2, но с различным синтаксисом.

M_1 * M_2 M_1 + M_2 + M_1:M_2. M_1 / M_2 M_1 + M_2 %in % M_1.

M^n Все параметры вМ вместе со "взаимодействиями" до порядка nI(M) ИзолированноеМ. ВнутриМ все операторы имеют свое обычное арифметическое значение, и этот параметр появляется в матрице модели.

Заметим, что в круглых скобках, которые обычно включают аргументы функции, у всех операторов есть свое нормальное арифметическое значение. Функция I() является зеркальным отображением, используемым для придания определенности параметрам в формулах модели, используя арифметические операторы.

В частности заметим, что формулы модели описывают столбцы матрицы модели, определение подразумевающихся параметров. Дело обстоит не так в других контекстах, например в определении нелинейных моделей.

Статистические и теоретико-вероятностные методы составляют методологическую основу одноименного вида моделирования. На этом уровне формализации модели речь о вскрытии закона, обеспечивающего устранение неопределенности при принятии решения, пока еще не идет, но существует некоторый массив наблюдений за данной системой или ее аналогом, позволяющих сделать некие выводы относительно прошлого/текущего/будущего состояния системы, основываясь на гипотезе об инвариантности ее поведения.

Как всегда, сформулируем определение… Статистическая или теоретико-вероятностная модель (стохастическая модель) - это модель, в которой обеспечивается учет влияния случайных факторов в процессе функционирования системы, основанная на применении статистической или теоретико-вероятностной методологии по отношению к повторяющимся феноменам . Данная модель оперирует количественными критериями при оценке повторяющихся явлений и позволяет учитывать их нелинейность, динамику, случайные возмущения за счет выдвижения на основе анализа результатов наблюдений гипотез о характере распределения некоторых случайных величин, сказывающихся на поведении системы.

По существу, теоретико-вероятностные и статистические модели отличаются уровнем неопределенности знаний о моделируемой системе, существующей на момент синтеза модели. В случае, когда представления о системе носят, скорее, теоретический характер и основываются исключительно на гипотезах о характере системы и возмущающих воздействий, не подкрепленных результатами наблюдений, теоретико-вероятностная модель является единственно возможной. Когда же на этапе синтеза модели уже существуют данные, полученные опытным путем, появляется возможность подкрепления гипотез за счет их статистической обработки. Это становится очевидным, если рассмотреть соотношение между методами математической статистики и теории вероятностей. Математическая статистика - это наука, изучающая методы вскрытия закономерностей, свойственных большим совокупностям однородных объектов или событий, на основании их выборочного обследования (либо большим массивам данных, полученных в результате наблюдения за одним и тем же объектом на протяжении достаточно протяженного интервала времени). Теория же вероятностей изучает количественные закономерности, которым следуют случайные явления, если эти явления определяются событиями известной вероятности. Соответственно, математическая статистика является связующим звеном между теорией вероятностей и явлениями реального мира, поскольку позволяет сформулировать оценки вероятности тех или иных событий на основе анализа статистических данных.

Можно утверждать, что статистические модели представляют собой особый вид математических моделей, использующих в качестве исходных данных не только актуальные данные о текущем состоянии объекта, но и данные, характеризующие состояние либо других объектов данного класса, либо этого объекта, но в иной момент времени. Статистические модели применимы для изучения массовых явлений любой природы, включая и те, которые не относятся к категории вероятностно определенных (математическая статистика приспособлена и для решения детерминированных задач). При моделировании последних статистический процесс вводится в модель искусственно для получения статистических оценок численного решения (например, точности измерения параметров детерминированного процесса).

Методы математической статистики и теории вероятности могут вводиться, в том числе, и в логические и логико-лингвистические модели, как это было указано в предыдущем подразделе. Например, могут рассматриваться методы интеграции статистических оценок в модели семантических отношений для придания различных весов дугам, связывающим отдельные вершины. Статистические оценки могут быть внедрены и в системы представления тезаурусов для разрешения ситуаций полисемии без обращения к процедурам контекстного анализа. Иными словами, статистические методы могут составлять как основу модели, так и применяться для модификации моделей других типов.

Для обработки результатов наблюдений используются методы корреляционного, регрессионного, факторного, кластерного и иных видов анализа, оперирующих статистическими гипотезами. Особая роль здесь отводится методу статистических испытаний (методу Монте-Карло ). Это метод численного решения математических задач, основанный на многократном теоретико-вероятностном и статистическом моделировании случайных величин или процессов с целью построения статистических оценок для искомых величин. Сущность метода состоит в реализации многократного моделирования случайного явления с помощью некоторой процедуры, дающей случайный результат. Для этого с применением ЭВМ создается некоторое множество реализаций случайных процессов, моделирующих возмущающие воздействия на исследуемый объект или процесс, после чего производится моделирование этого процесса или объекта в условиях, определяемых полученными случайными воздействиями. Результаты такого моделирования обрабатывают с использованием методов математической статистики. При этом могут варьироваться тип и параметры распределения случайной величины.

Реализация случайного процесса методом Монте-Карло представляет собой последовательность розыгрышей единичных жребиев, перемежающихся обычными расчетами, в ходе которых определяется результат возмущающего воздействия на объект или процесс, на исход операции.

Поскольку адекватность модели распределения случайных воздействий в общем случае установить трудно, задачей моделирования с применением метода Монте-Карло является обеспечение робастности полученных решений (устойчивости к изменению параметров закона распределения случайных величин и начальных условий моделирования) . Если результат моделирования не является робастным (существенно зависит от параметров закона распределения и параметров модели), то это свидетельствует о наличии высокого риска при принятии решения в данной реализации моделируемой системы.

Важную роль в статистических моделях играют гипотезы о характере процессов смены состояний в моделируемой системе. Так, например, весьма интересный случай представляет собой гипотеза о «марковости » процессов (получившая название в честь русского ученого А.А. Маркова - начало XX века). Марковские процессы представляют собой случай процесса с детерминированными вероятностями, для которого ранняя предыстория смены состояний системы на некотором предшествующем интервале времени несущественна для установления вероятности наступления следующего события - основное значение придается ее текущему состоянию . Если существует уверенность в марковости процесса, это существенно меняет представления о системе (она может рассматриваться как «инерционная», в большой степени зависящая от текущего ее состояния и характера возмущающего воздействия). Принцип марковости был открыт при анализе текстов на естественных языках, где вероятность появления следующего символа может быть предсказана на основе статистического анализа текстовых массивов, на данном конкретном языке.

Статистическое моделирование тесно сопряжено с имитационным моделированием , ходе которого модель объекта нередко «погружается в вероятностную (статистическую) среду», в которой проигрываются различные ситуации и режимы функционирования модели/объекта. Однако имитационные модели могут реализовываться и в детерминированных средах.

Методы статистического моделирования широко распространены в сфере стратегического планирования и управления . Широкому распространению методов статистического моделирования в сфере оперативного управления препятствует высокая трудоемкость процесса моделирования. В основном это связано с необходимостью глубокой математической проработки моделей и высокими требованиями, предъявляемыми к математическим познаниям пользователей.



Статьи по теме