читайте также
«Искусственный интеллект» (ИИ), «большие данные» и «машинное обучение» – модные слова, и, вероятно, вам любопытно, как все эти вещи можно применить в вашей деятельности. Возможно даже, что ваш порог постоянно обивают различные стартапы, всячески рекламирующие свои новые продукты с использованием ИИ. Только как вам узнать, в каких проблемах вашего бизнеса можно задействовать машинное обучение? Для этого вам нужно рассмотреть задачу, требующую решения, и все доступные данные, а затем задать себе три вопроса: о выполнимости, интуиции и ожиданиях.
Начать следует с разграничения между проблемами автоматизации и проблемами обучения. Машинное обучение, разумеется, может способствовать автоматизации процессов, однако не все задачи автоматизации требуют функций обучения.
Автоматизация без обучения применима в тех случаях, когда речь идет об относительно простых проблемах. Они состоят из ясной, заранее определенной последовательности действий, которые в настоящий момент выполняются человеком, но вполне могут быть доверены машине. Такого рода автоматизация бизнеса продолжается уже не первый десяток лет. Один из примеров проблемы, поддающейся простой автоматизации, – проверка входящих данных из внешнего источника на наличие известных и четко обозначенных ошибок. Например, хедж-фонды автоматически отфильтровывают ошибочные данные, представленные в виде отрицательного значения объема торговли, поскольку эта переменная не может быть отрицательной. С другой стороны, кодирование человеческой речи в структурированный набор данных является, пожалуй, слишком амбициозной задачей для обычной автоматизации.
Для второго типа проблем автоматизации явно недостаточно, поскольку они требуют обучения на основе данных. Именно в этот момент мы попадаем в область машинного обучения. Машинное обучение в основе своей представляет собой набор статистических методов, призванных находить предсказуемые последовательности в наборах данных. Эти методы позволяют весьма эффективно определять, как те или иные свойства данных соотносятся с результатами, которые вас интересуют. В то же время им недоступны знания за пределами предоставленных вами данных.
Например, в конце 90-х годов исследователи из Питтсбургского университета провели оценку алгоритмов машинного обучения, задача которых состояла в том, чтобы предсказывать уровень смертности больных пневмонией. В ходе эксперимента выяснилось, что алгоритмы рекомендуют больницам выписывать пациентов с пневмонией, но только в тех случаях, когда они также страдают от астмы. Из их расчетов выходило, что при совпадении двух этих условий риск смерти от пневмонии снижался. В итоге оказалось, что в данных, которыми располагал алгоритм, не учитывался тот факт, что при поступлении в больницу пациенты с астмой сразу же направлялись в отделение интенсивной терапии, где врачи уделяли им больше внимания. Именно поэтому (а вовсе не из-за астмы) они лучше себя чувствовали.
Итак, с какими проблемами бизнеса хорошо справляется машинное обучение? Главным образом с теми, которые, во-первых, требуют функции предсказания, а не простого анализа причинно-следственных связей, а во-вторых, достаточно замкнуты или изолированы от внешних воздействий. Первое подразумевает, что вас интересует, как те или иные аспекты данных соотносятся друг с другом за пределами их причинно-следственной зависимости. Помните, что статистические методы не располагают ни интуицией, ни теорией, ни предметными знаниями аналитиков-людей. Второе означает, что вы уверены (в пределах разумного), что данные, которые вы передаете алгоритму охватывают в большей или меньшей степени все аспекты проблемы. Если в будущем процесс, который вы пытаетесь предсказать, неожиданно изменится и перестанет соответствовать найденным прежде закономерностям, алгоритм перестанет нормально функционировать.
К хорошим примерам проблем, решаемых с помощью машинного обучения, относятся такие задачи, как предсказание вероятности, что определенный тип пользователей кликнет по рекламе определенного вида, или оценка похожести фрагмента текста с ранее просмотренными текстами.
Плохие примеры – предсказание доходов, которые принесет совершенно новая и революционная линейка продукции, или прогноз продаж в следующем году на основе имеющихся данных после появления нового серьезного конкурента на рынке.
Убедившись в том, что ваша задача соответствует специфике машинного обучения, на следующем этапе вы должны определить, есть ли у вас все необходимые данные для ее решения. Они могут поступать не только от вас, но и из внешних источников. Во втором случае вам нужно будет задать достаточное количество вопросов, чтобы понять охват данных и удостовериться в том, что они действительно совместимы с вашей проблемой.
Предположим, вы выяснили, что ваша задача относится к классическим проблемам машинного обучения и у вас есть достаточный объем данных, чтобы ее решить. Дело за малым – оценить весь процесс с помощью интуиции. Да, речь идет о вашей собственной интуиции. Методы машинного обучения, какими бы инновационными и магическими они вам ни казались, по сути своей остаются статистикой. А статистика доступна пониманию на интуитивном уровне. Вместо того, чтобы слепо верить в гениальность предложенного метода и безупречность его работы, начните задавать вопросы – много вопросов.
Разберитесь в том, как работает этот метод. Кажется ли он вам более или менее работоспособным? Подходит ли он по концепции к вашим конкретным условиям и к той проблеме, которую вы решаете? Что позволит ему лучше других справляться с вашей задачей? Если вам нужно закодировать определенный набор действий, то, возможно, последовательная модель или дерево решений станет для вас лучшим выбором. Если вам надо разбить результаты на два класса, то, может быть, двоичный метод опорных векторов лучше соответствует вашим требованиям.
С пониманием приходят более реалистичные ожидания. Задав достаточно вопросов и получив достаточно ответов, чтобы на интуитивном уровне оценить работу метода, вы осознаете, что магией здесь и не пахнет. Каждый человек совершает ошибки, но и алгоритмам также свойственно ошибаться. Для всех проблем, кроме самых простейших, любые методы время от времени будут давать сбои. Предсказания с помощью машинного обучения будут в среднем надежными, но никогда не станут гарантированно безошибочными. Ошибки непременно будут, причем чаще всего там, где вы их меньше всего ждете.
Поэтому последний шаг – оценить, в какой мере вы можете допустить исключения и статистические ошибки в вашем процессе. Достаточно ли вам 80% правильных решений? Можете ли вы смириться с 10% вероятности появления ошибок? Или 5%? Или 1%? Существуют ли такие типы ошибок, которые для вас просто неприемлемы? Будьте точны и откровенны как с самим собой, так и с тем, кто предоставляет вам это решение. И как только вы добьетесь с ним полного взаимопонимания, дерзайте. Вооруженные знанием, пониманием и разумными ожиданиями, вы будете готовы воспользоваться преимуществами машинного обучения. Только, пожалуйста, сохраняйте терпение.
Об авторе: Анастасия Федик – PhD Гарвардской школы бизнеса, занимается исследованиями в области финансов и поведенческой экономики.