Информационный критерий Акаике

Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») en:Hirotsugu_Akaike и предложен им в статье 1974 года^[1].

Предпосылкой к созданию критерия послужила задача оценки качества предсказаний модели на тестовой выборке при известном качестве на обучающей выборке при условии, что модель мы настраивали по методу максимума правдоподобия. То есть стояла задача оценки переобучения модели. Акаике, используя теорию информации (в том числе расстояние Кульбака — Лейблера), смог для ряда частных случаев получить искомую оценку.

Содержание

1 Определение
2 Применимость к настройке по (максимуму правдоподобия)
3 См. также
4 Ссылки
5 Литература

Определение

В общем случае AIC:

где k — число параметров в статистической модели, и L — максимизированное значение функции правдоподобия модели.

До конца статьи будем полагать, что ошибки модели нормально и независимо распределены. Пусть n — число наблюдений и RSS:

остаточная сумма квадратов. Далее мы предполагаем, что дисперсия ошибок модели неизвестна, но одинакова для всех их. Следовательно:

В случае сравнения моделей на выборках одинаковой длины, выражение можно упростить, выкидывая члены зависящие только от n:

Таким образом, критерий не только вознаграждает за качество приближения, но и штрафует за использование излишнего количества параметров модели. Считается, что наилучшей будет модель с наименьшим значением критерия AIC. Критерий Шварца (BIC) штрафует свободные параметры в большей мере.

Стоит отметить, что абсолютное значение AIC не имеет смысла — он указывает только на относительный порядок сравниваемых моделей.

Применимость к настройке по (максимуму правдоподобия)

Часто необходимо выбирать между моделями, для которых считается, что их ошибки нормально распределены. Это приводит к критерию .

Для таких случаев можно приспособить AIC. В рамках статьи назовем его . От непосредственно AIC он будет отличаться на аддитивную константу (функцию лишь данных, но не модели), которой можно пренебречь ввиду относительного характера критерия.

Для приближения функция правдоподобия определяется следующим образом:

где C — независимая от модели константа, которую можно исключить в случае сравнения моделей на одних и тех же данных.

Таким образом: . Исключая константу:

Эта форма критерия часто удобна, если мы уже вычислили как статистику качества приближения. В случае обучения моделей на данных с одинаковым количеством точек, нужно брать модель с наименьшим значением .

Аналогично, если имеется вычисленная статистика («Объясненная дисперсия»), можно записать:

См. также

Байесовский информационный критерий (он же:Критерий Шварца, BIC)
Критерий Акаике на Machinelearning.ru

Ссылки

10.1109/TAC.1974.1100705. 0423716.

Литература

Akaike, H. A new look at the statistical model identification. — IEEE Transactions on Automatic Control. — 1974 T. 19. — 716—723 с.

Liddle A. R. Information criteria for astrophysical model selection. — Advances in Neural Information Processing Systems. — Astronomy Centre, University of Sussex, 2008.

Burnham K. P., Anderson D.R. Model selection and multimodel inference: a practical information-theoretic approach. — 2-е изд. — Springer, 2002. — 488 с. — ISBN 0-387-95364-7

McQuarrie A. D. R., Tsai C. L. Regression and time series model selection. — World Scientific, 1998. — 455 с. — ISBN 981-02-3242-X

Бидюк П. И., Зворыгина Т. Ф. Cтруктурный анализ методик построения регрессионных моделей по временным рядам наблюдений.

Light-industry-up.ru

Экосистема промышленности

Публикации