Чем машинное обучение отличается от статистики на самом деле

Автор оригинала: Matthew Stewart. К старту курса о машинном и глубоком обучении делимся мнением Мэтью Стюарта, соискателя степени кандидата наук в Гарварде, который, по собственному признанию, устал слышать эти дебаты, повторяющиеся в социальных сетях и в моём университете практически ежедневно. Они сопровождаются несколько туманными заявлениями.

Автор считает, что в этом виноваты обе стороны дебатов и надеется, что к концу этой статьи у читателей будет более обоснованная позиция в отношении этих несколько расплывчатых терминов. Неопределённых утверждений, которые автор часто слышит на эту тему, есть несколько, а самое распространённое из них звучит приблизительно так:

Основное различие между машинным обучением (далее — ML) и статистикой заключается в их назначении. Модели ML разработаны, чтобы делать максимально точные прогнозы. Статистические модели — для выводов о взаимосвязях между переменными. Хотя технически это верно, формулировка не даёт чёткого или удовлетворительного ответа. Чтобы вы представляли, насколько далеко зашла дискуссия, в журнале Nature Methods опубликована статья, где описывается разница между статистикой и ML.


Аргументы

Вопреки распространённому мнению ML существует десятилетиями. От него отказались из-за больших требований к вычислениям и ограничений вычислительной мощности того времени, однако в последние годы ML из-за большого количества данных после информационного взрыва переживает возрождение.

Итак, если ML и статистика — синонимы, почему мы не видим, что кафедры статистики в каждом университете закрываются или преображаются в кафедры «машинного обучения»? Потому, что это не одно и то же. Основное отличие ML и статистики — в назначении, однако утверждение о том, что ML направлено на точные предсказания, тогда как статистические модели предназначены для выводов, практически бессмысленно, если вы не разбираетесь в этих понятиях.

Мы должны понимать, что статистика и статистические модели — это не одно и то же.

  • Статистика — это математическое исследование данных. Если у вас нет данных, вы не можете заниматься статистикой.
  • Статистическая модель — это модель для данных, используемая либо чтобы сделать вывод о взаимосвязях внутри них, либо чтобы создать модель, способную предсказывать будущие значения.

Часто эти два понятия идут рука об руку, поэтому проясним две вещи:

  • Чем статистика отличается от ML?
  • Чем статистические модели отличаются от ML?

Существует множество статистических моделей, которые могут прогнозировать, но их прогнозы не отличаются точностью.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр