Машинное обучение: инструкция для опоздавших | Большие Идеи

・ Технологии
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Машинное обучение: инструкция
для опоздавших

Как догнать и перегнать первопроходцев

Авторы: Аджай Агравал , Джошуа Ганс , Ави Голдфарб

Машинное обучение: инструкция для опоздавших
Peter Greenwood

читайте также

Хотите быть счастливым, носите удобную обувь…

Гардинер Морс

Хотите выступить успешно? Добавьте в свой рассказ образ злодея

Грег Стоун

«Удобный или запоминающийся?»: каким должен быть пользовательский опыт бренда

Александр Буойе,  Лерзан Аксой,  Люк Уильямс,  Тимоти Кейнингем

Хороший повод для драки

Бейер Деймон,  Жони Саж-Николь

В последнее десятилетие стремительно развивается машинное обучение — один из самых захватывающих разделов искусственного интеллекта. Метод, с помощью которого можно спрогнозировать результат по входным данным, помог таким гигантам, как Amazon, Apple, Facebook* и Google, вывести свои продукты на новый уровень. А стартапы подстегнул к запуску новых продуктов и платформ, часть из которых может конкурировать с аналогами от техгигантов.

Возьмем, к примеру, канадскую компанию BenchSci, которая разрабатывает систему, позволяющую ускорить вывод лекарств на рынок. Цель компании — сделать иголки в стоге сена более заметными. BenchSci помогает ученым быстрее найти необходимую информацию во внутренних базах данных фармацевтических фирм и в публикациях научных исследований. Перед тем как отправить потенциальное лекарственное средство на клинические испытания, ученые должны провести эксперименты, на которые уходит много времени и средств. В BenchSci поняли, что можно тратить меньше ресурсов и приходить к лучшему результату, если обращаться к наработкам огромного количества более ранних экспериментов.

Как выяснили в BenchSci, если ученые используют машинный интеллект, чтобы изучать публикации научных исследований, классифицировать информацию и делать выводы, количество требуемых для начала клинических испытаний экспериментов сокращается вдвое. В частности, таким образом можно находить необходимые биологические реагенты — вещества, которые регулируют синтез белков. Разработка потенциальных лекарств будет гораздо эффективнее, если искать нужные реагенты в опубликованной литературе, вместо того чтобы начинать каждый новый поиск с нуля. Это позволит сэкономить больше $17 млрд ежегодно, что может изменить рынок индустрии, в которой научные исследования и разработки практически не окупаются. Кроме того, чем быстрее новые лекарства будут появляться в продаже, тем больше жизней удастся спасти.

ИДЕЯ КОРОТКО

Проблема
Все больше компаний начинают применять машинное обучение для продуктов и услуг с элементами искусственного интеллекта и сталкиваются с проблемой: занять прочное место на рынке не так просто, особенно если конкуренты обратились к ИИ гораздо раньше.
Как преуспеть
Самые успешные ИИ-компании быстро набирают достаточное количество данных для обучения, а затем используют обратную связь, чтобы сделать прогнозы качественнее, чем у конкурентов.
Как наверстать
«Опоздавшие» все еще могут занять устойчивое положение на рынке, если найдут новые источники данных для обучения или обратной связи или если нацелятся на узкоспециализированную нишу.

Что примечательно, BenchSci в своей узкой области занимается примерно тем же, чем Google на просторах интернета: использует машинное обучение для поиска. Google поможет вам починить посудомоечную машину, сэкономит время на поход в библиотеку или деньги на дорогостоящий ремонт — а BenchSci позволяет ученым находить подходящие реагенты без многочисленных исследований и опытов. Раньше ученые часто разыскивали литературу в Google или в PubMed (на это уходили дни), изучали ее (снова дни), а затем заказывали от трех до шести реагентов и проводили тесты, чтобы выбрать один (это занимало недели). На поиск в BenchSci уходят считанные минуты, после чего можно заказать от одного до трех реагентов и выбрать нужный с меньшими затратами усилий и времени.

Многие компании уже используют ИИ и знают, как применять его в рабочих операциях. Но со временем у них появляется и более широкая задача — «вырыть защитный ров» вокруг бизнеса, создать продукт, который не смогут запросто повторить конкуренты. Машинное обучение способно помочь и в этом. Например, в случае с BenchSci возникают вопросы: приведет ли первоначальный успех компании к конкуренции с Google и как в таком случае BenchSci сможет сохранить лидерство?

Далее речь пойдет о том, как организациям, которые только начинают применять ИИ, получить конкурентное преимущество. Конечно, ранний старт может стать существенным плюсом, но это не гарантия долгосрочного успеха. Даже те, кто поздно выходит на этот рынок, способны вырваться вперед (или, по крайней мере, наверстать упущенное), отыскав свою нишу.

ПРОГНОЗИРОВАНИЕ С ПОМОЩЬЮ ИИ

Машинное обучение используется в бизнесе, чтобы находить закономерности и на их основе делать прогнозы: что понравится покупателям, как повысить эффективность и улучшить продукт. Но прежде чем разрабатывать стратегии, опирающиеся на такие предсказания, нужно понять, какие данные необходимы для обучения, сложно ли их получить и какую роль играет обратная связь в процедуре улучшения прогнозов.

В контексте машинного обучения прогноз — это выдача информации в результате обработки алгоритмом введенных данных. К примеру, когда навигатор в вашем смартфоне предлагает самый быстрый маршрут между двумя точками, программный алгоритм использует сведения о пробках, ограничениях скорости, ширине трассы и других факторах.

Главная задача — добыть данные, которые нужны для обоснованных прогнозов. Приходится или создавать их (например, пригласив экспертов, которые могут все классифицировать), или брать из существующих источников (скажем, медицинских карт). Некоторые виды данных легко добыть из открытых источников (к примеру, прогнозов погоды или карт). Информацию также можно ­получить от пользователей: они охотно ею делятся, если им это выгодно. Скажем, те, кто носит FitBit и Apple Watch, чтобы следить за своим здоровьем, разрешают устройствам собирать сведения об уровне своей физической подготовки, калорийности потребляемой пищи и т. д.

Однако бывают случаи, когда завладеть данными для обучения сложно: например, если для этого необходимо получить обратную связь от многих людей, которым невыгодно ее давать. Навигатор может собирать сведения об обстановке на дорогах, отслеживая местоположение пользователей и получая от них отчеты. Это позволяет приложению определять, в каких местах, вероятнее всего, будут заторы, и предупреждать людей, которые туда направляются. Но у того, кто уже попал в пробку, нет резона сообщать об этом. Кроме того, водители вряд ли хотят, чтобы их передвижения постоянно отслеживались и фиксировались. Если люди, застрявшие в пробках, откажутся делиться своими данными или попросту выключат геолокацию, приложение вряд ли сможет предупреждать пользователей о затруднении движения.

Еще одна проблема в том, что данные для обучения нужно периодически обновлять. Она возникает не всегда — только если контекст, в котором создается предсказание, изменяется. К примеру, в рентгенологии анализируют физиологию людей, которая примерно одинакова и никогда не меняется. Поэтому спустя некоторое время ценность новой информации сводится почти к нулю. Однако в других случаях алгоритмы требуют постоянного притока новых сведений, отражающих сдвиги в анализируемой среде. В тех же приложениях-навигаторах необходимо обновлять карты, иначе новые дороги и кольцевые развязки, переименованные улицы и прочие подобные нововведения с течением времени уменьшат точность прогнозов.

Зачастую алгоритмы можно совершенствовать с помощью обратной связи от пользователей — реальные исходы событий добавляют к данным, на основе которых делались прогнозы. Это особенно важно, если внутри заданных границ существуют заметные отклонения. Приведем пример. В некоторых смартфонах есть функция аутентификации по лицу. Но человек может выглядеть по-разному: очки, прическа, макияж и даже колебания веса заметно меняют внешний вид. Поэтому распознавание лица может стать менее точным, если смартфон полагается только на исходные данные. На деле же алгоритм обновляется каждый раз, когда вы используете такой способ аутентификации.

Постоянная обратная связь не столь эффективна в изменчивых условиях, в которых сложнее классифицировать и хранить полученные данные. Например, распознавание лица в смартфоне работает лучше, только если владелец телефона пользуется этой функцией. Если люди, очень похожие на владельца, тоже могут разблокировать телефон, его прогнозы становятся ненадежными.

Еще одна особенность машинного обучения — алгоритмы можно сделать предвзятыми, особенно если анализировать множество факторов. Представим себе, что банк использует искусственный интеллект, чтобы оценивать риски при кредитовании людей, обращающихся за займом. ИИ принимает в расчет уровень дохода, сведения о работе, демографические характеристики и т. п. Если в данных для обучения алгоритма заложена предвзятость по отношению к некоей группе, например к людям с определенным цветом кожи, петля обратной связи будет поддерживать или даже усиливать дискриминацию. В итоге таким заемщикам, вероятнее всего, откажут в кредите. Обратную связь практически невозможно внедрить в алгоритм без четко обозначенных критериев и надежных, непредвзятых источников.

КОНКУРЕНТНОЕ ПРЕИМУЩЕСТВО ПРОГНОЗОВ

Методы построения устойчивого бизнеса в разных отраслях почти не различаются. В этом смысле машинное обучение — одна из отраслей. Нужно взять продукт, который можно продать, занять крепкое исходное положение и воздвигнуть препятствия на пути последователей. Сможете ли вы это сделать, зависит от того, как вы ответите на следующие вопросы.

1. Достаточно ли у вас данных для обучения?

С самого начала алгоритм должен генерировать прогнозы, которые будут достаточно хороши, чтобы иметь коммерческий успех. Что значит «достаточно хороши»? Это определяется нормативными требованиями (например, ИИ, используемый для медицинской диагностики, должен отвечать государственным стандартам), простотой использования (чат-бот/виртуальный собеседник должен работать достаточно гладко, чтобы звонящие пользовались им, а не дожидались ответа оператора) и конкурентоспособностью (компания, которая планирует выйти на рынок интернет-поисковиков, должна обеспечить точность предиктивного поиска, сопоставимую с точностью поисковика Google). Единственная преграда на этом пути — время и усилия, которые нужно потратить на сбор и создание достаточного количества данных для обучения.

Иногда эту преграду трудно преодолеть. Вспомним пример с рентгенологией: искусственный интеллект должен работать ощутимо лучше высококлассного врача — только тогда ему можно доверить человеческие жизни. Получается, что у компании, которая первой создаст ИИ, применимый в области рентгенологии (то есть способный считывать информацию с рентгеновских снимков), поначалу не будет конкурентов — и все из-за того, что для успешной работы нужно очень много данных. Но это преимущество может быть недолговечным. В условиях быстро развивающегося рынка доступ к информации для обучения окупается настолько хорошо, что может привлечь крупные фирмы с большими кошельками.

Конечно, это означает, что требования к данным для обучения, как и многое другое, зависят от масштаба. Быстрорастущие рынки привлекают инвесторов и спустя какое-то время поднимают входной порог для остальных (а также вынуждают других игроков на рынке тратить больше средств на рекламу своих продуктов). Поэтому чем больше данных для машинного обучения у вас есть, тем сложнее будет последователям. А это приводит нас ко второму вопросу.

2. Насколько быстро вы получаете обратную связь?

Искусственный интеллект пользуется тем, что всегда было преимуществом людей, — он учится. Если он способен применять данные обратной связи — значит, может обучаться, используя информацию о реальных исходах тех или иных событий, и повышать точность прогнозов.

Однако сила этого преимущества зависит от того, насколько оперативно удается получить обратную связь. Вернемся к рентгенологии. Если, чтобы оценить точность диагноза, поставленного алгоритмом, нужно проводить вскрытие, обратная связь будет поступать медленно. И даже если компания оперативнее всех собирает и анализирует рентгеновские снимки, быстро учиться уже не получится — и лидерство будет потеряно. И наоборот, если данные обратной связи поступают вскоре после прогноза, первоначальное первенство перейдет в устойчивое конкурентное преимущество. Ведь даже крупнейшие организации вскоре уже не смогут достичь минимального эффективного масштаба производства.

Microsoft вложила миллиарды долларов в поисковую систему Bing и запустила ее в 2009 году. Однако десятилетие спустя доля рынка Bing все еще существенно меньше, чем у Google, и по объему поиска, и по доходу от контекстной рекламы. Одна из причин, помешавших поисковику Microsoft угнаться за конкурентом, была связана с петлей обратной связи. Во время поиска от прогноза (появления страницы с ссылками в ответ на запрос пользователя) до обратной связи (переход по одной из ссылок) обычно проходит несколько секунд. Петля обратной связи получается короткой и эффективной.

Когда Bing появилась на рынке, Google уже больше десяти лет использовала поисковую систему, основанную на искусственном интеллекте, и помогала миллионам пользователей, ежедневно обрабатывая миллиарды запросов. Всякий раз, когда человек создавал запрос, Google выдавала наиболее релевантные ссылки. Когда пользователь переходил по одной из них, модель прогнозирования обновлялась. Это позволило системе непрерывно обучаться в условиях расширяющегося масштаба поиска. Благодаря большому объему данных от огромного количества пользователей Google могла распознавать новые события и тренды гораздо быстрее, чем Bing. Таким образом, короткая петля обратной связи в сочетании с другими факторами — постоянным инвестированием в центры обработки данных и реальными или воображаемыми расходами пользователей на переход на другую поисковую систему — приводила к отставанию Bing. Остальные поисковые системы, которые пытались конкурировать с Google или хотя бы с Bing, остались далеко позади.

3. Насколько хороши ваши прогнозы?

Успех любого продукта в конечном счете зависит от того, что вы получаете за свои деньги. Если покупателю предложить два товара по одинаковой цене, он выберет тот, который кажется ему более качественным.

Как уже отмечалось, качество прогнозов, как правило, легко оценить. В рентгенологии, поиске, рекламе и других сферах компании могут разрабатывать ИИ, у которых будет один четкий показатель эффективности, — точность. В любой области продукт наивысшего качества пользуется наибольшим спросом. Однако продукты с элементами ИИ отличаются от остальных. Обычно лучшее качество обходится дороже, а цену товара можно снизить только за счет более дешевых материалов и менее затратного процесса производства. Эта стратегия не всегда работает с ИИ. Так как искусственный интеллект основан на программном обеспечении, прогнозы разного качества стоят одинаково. Поэтому сделать скидку на некачественный продукт попросту невозможно. А если прогнозы более высокого качества стоят столько же, нет причин выбирать что-то другое.

Это также объясняет недостижимый отрыв Google. Зачастую прогнозы конкурентов очень похожи на то, что предлагает Google. Если вы напечатаете слово «погода» в Google и в Bing, то получите одинаковые результаты — наверху страницы будет прогноз погоды. Но если вы введете более редкое слово, результаты могут различаться. Если вы напечатаете, например, «прорыв», то на первой странице в Bing будут словарные определения, а в Google еще и ссылки на исследования о «прорывных технологиях». Хотя с некоторыми поисковыми запросами Bing работает наравне с Google, во многих случаях он не столь точно определяет, что ищут пользователи. И едва ли Bing хоть в чем-то может обойти конкурента.

НАВЕРСТЫВАЯ УПУЩЕННОЕ

Основная мысль такова: чем раньше вы начнете использовать ИИ, тем больше сможете оторваться от конкурентов. Но это удастся сделать, только если петли обратной связи будут короткими, а работа — качественной. У опоздавших есть два способа найти свою нишу на рынке. Ключ к ним — в вопросах, приведенных выше. Выбирать один из способов необязательно, можно опробовать сразу оба.

Найти и «застолбить» альтернативные источники данных. На рынке средств прогнозирования есть два источника данных, от которых еще никто не питается. Возвращаясь к примеру с рентгенологией, каждый из десятков тысяч докторов прочитывает тысячи отсканированных страниц в год — это означает, что сотни миллионов (или даже миллиардов) единиц информации находятся в открытом доступе. Первопроходцам рынка хватит тренировочных данных от нескольких сотен рентгенологов. Конечно, как только запустится программное обеспечение, объем обратной связи и количество сканов в их базе значительно увеличится. Но есть еще миллиарды уже проанализированных и проверенных сканов — если отстающие смогут их использовать, то наверняка наверстают упущенное. И тогда они сумеют разработать ИИ, который делает достаточно точные прогнозы, чтобы зайти на рынок. А затем воспользуются всеми преимуществами обратной связи.

Искусственный интеллект также можно тренировать на данных лабораторных исследований и вскрытий, ведь диагнозы — не единственный источник данных. Эта стратегия позволит быстрее достичь порога качества (так как биопсия и вскрытие точнее рентгеновских снимков), но в этом случае петля обратной связи будет длиннее.

Еще один вариант для опоздавших: вместо того, чтобы искать нетронутые источники данных, можно нацелиться на новые источники обратной связи, которые сделают процесс обучения более быстрым, чем у конкурентов (BenchSci — пример компании, которой это удалось). Если новичок первым обнаружит ранее неизвестный способ получать быструю обратную связь, он сможет, опираясь на действия и решения других пользователей, улучшить свой продукт. Но на рынках, где петли обратной связи и так относительно короткие, этот подход применить сложно. Кроме того, значительно более быстрый способ получить обратную связь подорвет все устои: новые компании будут не конкурировать с уже устоявшимися, а просто заменять их.

Придать прогнозам индивидуальность. Другая тактика, которая поможет компаниям, только начавшим работать с ИИ, выдержать конкуренцию — переосмыслить критерии качества прогнозов, пусть и не для всех пользователей. Возвращаясь к рентгенологии, такая стратегия возможна, если на рынке есть запрос на разные виды прогнозов. Первопроходцы рынка, скорее всего, обучали свои алгоритмы на базе данных одной медицинской системы, одного типа оборудования и одной страны. Используя данные (а затем и обратную связь) из других систем или стран, фирма-новичок может кастомизировать ИИ для определенного сегмента пользователей, имеющего отличительные черты. Сравним городских жителей США и сельских жителей Китая: они находятся в разных условиях, поэтому ИИ, разработанный для постановки диагнозов людям определенной группы, может давать не столь точные результаты людям, живущим в других условиях.

Прогнозы, опирающиеся на данные, полученные на определенном оборудовании, также имеют шанс на рыночный успех, если такая бизнес-модель приведет к снижению затрат или повышению доступности ­прогнозов. ИИ в рентгенологии, как правило, использует данные самых распространенных рентгеновских и УЗИ-аппаратов и сканеров, производимых именитыми компаниями вроде GE и Siemens. Однако если алгоритмы применяются к данным, полученным с приборов других производителей, прогнозы могут быть менее точными. Поэтому фирмы-новички смогут найти свою нишу, если будут предлагать продукт, заточенный на менее популярное оборудование. Он наверняка будет пользоваться спросом, если окажется дешевле или станет отвечать потребностям определенной группы людей.

Потенциал ИИ невообразим. Да, у технологических гигантов есть огромное преимущество. Но не стоит забывать, что прогнозы — это результат тонких вычислений, адаптированный для определенных нужд и условий. Если вы сможете выбрать узкую нишу для своих прогнозов, то создадите конкурентоспособный продукт. Опасность кроется в деталях того, как вы собираете и храните данные. В них же кроется и ваше спасение.

Тем не менее, ключ к здоровой конкуренции с техгигантами в областях, использующих ИИ, — в вопросе, на который может ответить только человек: что вы хотите прогнозировать? Конечно, найти ответ на этот вопрос нелегко. Необходимо хорошо разбираться в динамике рынка и вдумчиво анализировать потенциальную ценность специализированных прогнозов, а также продуктов и сервисов, на основании которых они строятся. Поэтому неудивительно, что основным инвестором BenchSci на раунде А стала не одна из многочисленных канадских технологических фирм, а ориентированная на ИИ венчурная компания Gradient Ventures. И ею владеет Google.

* принадлежит Meta, которая признана в России экстремистской и запрещена