Технологии
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Осторожно, алгоритмы: почему предиктивная аналитика может быть опасной

Эрик Сигель
Иллюстрация: Sidney Morgan/Stocksy

Алгоритмы машинного обучения могут многое о вас узнать — в том числе самые важные вещи, которые вы бы предпочли никому не рассказывать. Например, они могут угадать вашу сексуальную ориентацию или предсказать, беременны ли вы, собираетесь ли увольняться и рискуете ли умереть в ближайшее время. Ученые могут установить расу человека по лайкам на Facebook*, а власти Китая используют технологии распознавания лиц, чтобы вычислять и отслеживать представителей уйгурского этнического меньшинства.

«Знают» ли алгоритмы все это на самом деле или просто выдвигают обоснованные предположения? И если они просто делают выводы, как мог бы их делать любой человек, то что плохого в том, что они такие сообразительные? Рассмотрим несколько примеров.

Пожалуй, самый известный случай излишней догадливости алгоритма в США — это история о том, как сеть супермаркетов Target предсказывала беременность своих покупательниц. В 2012 году в The New York Times написали о том, как компании работают с данными. В статью вошла в том числе история о том, как отец узнал о беременности своей дочери-подростка благодаря тому, что Target присылал ей купоны на товары для младенцев, как будто предугадав события. Вполне вероятно, что эта история выдумана, — и даже если такое действительно произошло, это, судя по описанию методов Target, приведенных в той же статье, было простым совпадением, а не результатом сложной предиктивной аналитики. Но так или иначе, история все равно показывает пример угрозы приватности: ведь если маркетинговое отделение компании догадывается о беременности клиента, то оно без согласия пользователя выяснило значимую медицинскую информацию, с которой обычно имеют право работать только специально обученные медицинские сотрудники.

Доступ к такой информации без должного контроля может иметь очень серьезные последствия в жизни человека. Например, как написал один из комментаторов в сети, представьте себе беременную женщину, «у которой сложная ситуация на работе и которая еще не получила государственную страховку по нетрудоспособности. Если о ее беременности станет известно, она рискует оплачивать из своего кармана роды (примерно $20 тыс.) и не получить выплаты по нетрудоспособности во время перерыва в размере $10—50 тыс. Вдобавок она может потерять работу».

Заметьте, что в этом примере нет неправильной обработки, кражи или утечки данных — только создание новых данных: установление по косвенным показателям информации, которую люди не стали бы раскрывать добровольно. Эти инсайты можно получить из открытых, куда более безобидных данных — как будто из ниоткуда.

Неужели странным образом получается так, что проблемой может оказаться как раз слишком хорошая работа предиктивных моделей? Очевидно, что плохие модели — это плохо. Но неужели правильные прогнозы — это тоже плохо?

* деятельность на территории РФ запрещена

Полная версия статьи доступна подписчикам на сайте