Осторожно, алгоритмы: почему предиктивная аналитика может быть опасной | Большие Идеи

・ Технологии
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Осторожно, алгоритмы: почему предиктивная аналитика может
быть опасной

Что могут узнать о вас технологические компании и как это можно изменить

Автор: Эрик Сигель

Осторожно, алгоритмы: почему предиктивная аналитика может быть опасной
Sidney Morgan/Stocksy

читайте также

Семейный многогранник

Марина Птушкина

Качество, которое может помочь вашей карьере

Питер Брегман

Что делают хорошие лидеры, когда приходят на смену плохим

Эндрю Блам

Коса на камень

Павлов Дмитрий

Алгоритмы машинного обучения могут многое о вас узнать — в том числе самые важные вещи, которые вы бы предпочли никому не рассказывать. Например, они могут угадать вашу сексуальную ориентацию или предсказать, беременны ли вы, собираетесь ли увольняться и рискуете ли умереть в ближайшее время. Ученые могут установить расу человека по лайкам на Facebook, а власти Китая используют технологии распознавания лиц, чтобы вычислять и отслеживать представителей уйгурского этнического меньшинства.

«Знают» ли алгоритмы все это на самом деле или просто выдвигают обоснованные предположения? И если они просто делают выводы, как мог бы их делать любой человек, то что плохого в том, что они такие сообразительные? Рассмотрим несколько примеров.

Пожалуй, самый известный случай излишней догадливости алгоритма в США — это история о том, как сеть супермаркетов Target предсказывала беременность своих покупательниц. В 2012 году в The New York Times написали о том, как компании работают с данными. В статью вошла в том числе история о том, как отец узнал о беременности своей дочери-подростка благодаря тому, что Target присылал ей купоны на товары для младенцев, как будто предугадав события. Вполне вероятно, что эта история выдумана, — и даже если такое действительно произошло, это, судя по описанию методов Target, приведенных в той же статье, было простым совпадением, а не результатом сложной предиктивной аналитики. Но так или иначе, история все равно показывает пример угрозы приватности: ведь если маркетинговое отделение компании догадывается о беременности клиента, то оно без согласия пользователя выяснило значимую медицинскую информацию, с которой обычно имеют право работать только специально обученные медицинские сотрудники.

Доступ к такой информации без должного контроля может иметь очень серьезные последствия в жизни человека. Например, как написал один из комментаторов в сети, представьте себе беременную женщину, «у которой сложная ситуация на работе и которая еще не получила государственную страховку по нетрудоспособности. Если о ее беременности станет известно, она рискует оплачивать из своего кармана роды (примерно $20 тыс.) и не получить выплаты по нетрудоспособности во время перерыва в размере $10—50 тыс. Вдобавок она может потерять работу».

Заметьте, что в этом примере нет неправильной обработки, кражи или утечки данных — только создание новых данных: установление по косвенным показателям информации, которую люди не стали бы раскрывать добровольно. Эти инсайты можно получить из открытых, куда более безобидных данных — как будто из ниоткуда.

Неужели странным образом получается так, что проблемой может оказаться как раз слишком хорошая работа предиктивных моделей? Очевидно, что плохие модели — это плохо. Но неужели правильные прогнозы — это тоже плохо?

Даже если модель не слишком точна в целом, для определенной группы беременных ее предсказания все равно могут быть довольно точны. Например, предположим, что в любой момент беременны 2% женщин от 18 до 40 лет. Таким образом, если модель покажет, какие женщины беременны с вероятностью втрое выше среднего, только 6% из них будут действительно беременны. Но если взять более узкую группу — например, верхние 0,1% по вероятности беременности, — эффективность поднимется уже значительно больше, скажем, в 46 раз, и в этой группе беременность будет вычисляться с вероятностью 92%. Система сможет определять беременность с очень высокой степенью точности.

То же касается определения ориентации, расы, состояния здоровья, места жительства или намерения уволиться. Даже с помощью не слишком точной модели можно делать уверенные предсказания об определенной ограниченной группе, потому что о некоторых людях сделать такие предсказания действительно легче. И как бы мала ни была их доля — например, 0,1%, — если в выборку входит миллион человек, тысячу из них можно будет уверенно вычислить.

Легко представить, почему люди не хотели бы, чтобы другие узнали о них определенные факты. Например, в 2013 году Hewlett-Packard оценивали более 300 тыс. своих сотрудников по шкале вероятности увольнения, а результаты оценки отправляли менеджерам. Если бы вы собирались увольняться, то ваш начальник был бы последним человеком, которому бы вы стали об этом сообщать, пока не получите новое предложение.

Еще один пример — технологии распознавания лиц, с помощью которых можно отслеживать местоположение человека. Это нарушает наше фундаментальное право на свободу передвижения и неприкосновенность частной жизни. Например, расположенные в общественных местах камеры безопасности всегда могут определить, где и когда мог находиться тот или иной человек. Я не хочу огульно ругать распознавание лиц, но эту технологию критикуют, например, CEO Microsoft и Google.

Наконец, одна консалтинговая фирма разрабатывала модель текучести персонала для HR-департамента одной компании и обнаружила, что может в том числе предсказывать вероятность смерти сотрудников, ведь это один из вариантов текучести. HR-менеджеры попросили не показывать им эту часть модели: они не хотели брать на себя ответственность за информацию о том, какие сотрудники рискуют скоро умереть.

Исследования показали, что предиктивные модели умеют также выделять индивидуальные данные — например, расу и национальность — на основе, в частности, лайков в Facebook. Опасность заключается в том, как маркетологи будут использовать эту информацию. Профессор управления и технологий в Гарвардском университете Латания Суини описывает проблему так: «В конце концов, онлайн-реклама — это всегда дискриминация, разделение людей на группы. Мы не хотим показывать молодым мамам рекламу удочек, а рыболовам — рекламу подгузников. Но когда эта дискриминация перестает быть простым таргетированием и начинает приносить вред большой группе людей?» Исследование, проведенное Суини, показало, что при поиске в Google имен, часто встречающихся у темнокожих, на 25% чаще появлялась реклама, из которой следовало, что у человека есть досье арестов — даже если в базе данных рекламодателя на самом деле вообще не было человека с таким именем.

«Если создать технологию, которая может разделять людей по расам, кто-нибудь обязательно использует ее для дискриминации против этой расы», — говорит Клэр Гарви, старший научный сотрудник Центра приватности и технологий при факультете права Университета Джорджтауна.

И здесь можно отметить Китай. Власти страны используют технологии распознавания лиц для поиска и слежения за уйгурами — этнической группой, которую правительство систематически притесняет. Это первый известный случай, когда правительство страны использует технологии машинного обучения для определения национальности людей. И делается это для того, чтобы учитывать полученную информацию как фактор в принятии дискриминирующих решений, то есть решений, ориентированных в первую очередь на защищенный класс. В этом случае в зависимости от этнической принадлежности — после того как она выяснена — отношение и подход к представителям установленной группы меняется. Один китайский стартап, оцененный более чем в $1 млрд, заявил, что его программа может определять «группы людей, требующие особого отношения». Если в районе живет один уйгур, а в течение 20 дней там появляется еще шесть уйгуров, система немедленно оповестит об этом власти, говорится на сайте компании.

Дискриминация этнических групп с помощью предиктивных технологий — это новый уровень риска. Джонатан Фрэнкл, специалист по глубокому обучению из MIT, предупреждает, что такая перспектива существует не только в Китае: «Мне кажется, не будет преувеличением сказать, что это действительно угрожает самому существованию демократии. Если страна применяет какую-то модель в таком жестком авторитарном режиме, она начинает использовать данные для намного более глубокого контроля за мыслями и соблюдением правил. <…> Мы вступаем в серьезнейший кризис и сами этого не замечаем».

Очень сложно провести грань, за которой цели предсказаний машинного обучения становятся неэтичными — и тем более грань, за которой их нужно законодательно ограничивать. Но, по крайней мере, нужно замечать, когда машинное обучение используется для подкрепления уже известной неэтичной практики или для получения данных, к которым нужно относиться с аккуратностью.

Об авторе

Эрик Сигель (Eric Siegel) — ведущий консультант и бывший профессор Колумбийского университета. Занимается популяризацией технологий машинного обучения. Основатель многолетней серии конференций в области предиктивной аналитики и глубокого обучения Predictive Analytics World и Deep Learning World, преподаватель по специальности «Машинное образование для всех» на Coursera. Популярный спикер, более 100 раз выступал с главной речью на конференциях; исполнительный редактор The Machine Learning Times. Автор бестселлера «Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die».

* деятельность на территории РФ запрещена