Управление инновациями
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Машинное обучение выходит из-под контроля

Борис Бабик , Гленн Коэн , Сара Герке , Теодорос Эвгениу
Иллюстрация: Gregory Reid

Что происходит, когда из-за машинного обучения (программ, которые впитывают новые данные и на их основе меняют способы принятия решений) инвестиции оказываются убыточными, кандидаты на вакансии или потенциальные заемщики оцениваются предвзято, а автомобили попадают в аварии? Могут ли умные продукты и сервисы развиваться автономно — или лучше блокировать их «эволюцию» и периодически обновлять алгоритмы? Когда и с какой регулярностью проводить обновления во втором случае? Как оценивать риски того или иного варианта и справляться с ними?

Советам директоров и руководителям компаний придется искать ответы на все эти вопросы, ведь на рынке появляется все больше продуктов и сервисов с искусственным интеллектом, основанным на машинном обучении. В статье мы предлагаем ключ к пониманию потенциальных угроз этой технологии и того, как с ними справиться. В основу материала легли наши наработки в области медицинского права, этики, регулирования и машинного обучения.

В ЧЕМ РИСКИ МАШИННОГО ОБУЧЕНИЯ

Между машинным обучением и более ранними цифровыми технологиями есть важное различие. Оно заключается в том, что ИИ на основе машинного обучения способен независимо принимать все более сложные решения (например, какими финансовыми продуктами торговать, как автомобилю реагировать на препятствия, какой диагноз поставить пациенту) и постоянно корректировать этот процесс с учетом новых данных. Но алгоритмы не всегда работают гладко. Они могут принять неэтичное или не вполне оправданное решение. И тому есть три фундаментальных причины.

ИДЕЯ КОРОТКО

Проблема
На рынке появляется все больше продуктов на основе машинного обучения, а это порождает новые риски для компаний, которые разрабатывают и используют алгоритмы или поставляют данные для их обучения. Дело в том, что такие системы не всегда принимают точные и этичные решения.
Причины
Во-первых, при принятии решений эти системы часто основываются на оценке вероятностей. Во-вторых, среда, в которой они работают, может непредсказуемо меняться. В-третьих, из-за сложности систем трудно определить, ошибся ли алгоритм, и если да, то почему.
Решения
Руководству следует определить, должна ли система постоянно развиваться или лучше блокировать ее «эволюцию» и периодически обновлять вручную. К тому же необходимо должным образом протестировать продукт до и после его запуска, а после вывода на рынок постоянно отслеживать его работу.

Первая причина проста: обычно алгоритмы полагаются на вероятность того, что человек, скажем, не вернет кредит или заболеет. Поскольку таких прогнозов делается очень много, вполне возможно, что некоторые из них будут ошибочными: просто потому, что всегда есть вероятность промаха. Эта вероятность зависит от многих факторов, в том числе от количества и качества данных для обучения алгоритмов, конкретного метода машинного обучения (скажем, метода глубинного обучения с использованием сложных математических моделей или метода «деревья классификации» на основе заданных правил принятия решений), а также от того, использует ли система только объяснимые алгоритмы (то есть такие, которые приходят к решениям понятным человеку путем).

Вторая причина состоит в том, что среда, в которой происходит машинное обучение, тоже может развиваться и отклоняться от той версии, для которой изначально создавались алгоритмы. Это происходит по-разному, но два самых распространенных варианта — это дрейф концепта и изменение независимой переменной.

В первом случае отношения между входными и выходными данными могут быть заданы некорректно или оказаться неустойчивыми. Рассмотрим для примера алгоритм машинного обучения для биржевой торговли. Если обучать этот алгоритм только на данных за период низкой волатильности рынка и быстрого роста экономики, он будет некорректно работать во время рецессии или кризиса. По мере того как рынок меняется, отношения между входными и выходными данными — скажем, между долей заемных средств в компании и доходностью акций — тоже могут стать иными. Подобные расхождения могут возникать и в моделях оценки кредитоспособности на разных стадиях бизнес-цикла.

Примеры дрейфа концепта можно найти и в медицине. Скажем, система диагностики на основе машинного обучения, созданная для выявления рака кожи по фотографиям пациентов, может поставить неверный диагноз, если связь между цветом кожи (который зависит от расы и времени, проводимого на солнце) и диагнозом будет задана неточно. А нужные данные не всегда содержатся в электронных историях болезни, на которых обучается алгоритм.

Изменение независимой переменной происходит, когда данные, получаемые алгоритмом в процессе использования, отличаются от данных, на которых он обучался. Это может случиться даже в отсутствие дрейфа концепта, если усвоенные алгоритмом модели остаются неизменными. Рассмотрим пример. Производитель медицинских устройств может разработать систему на основе машинного обучения, которая будет опираться на данные крупных городских больниц. Но после выхода системы на рынок ее, вероятно, начнут применять и сельские поликлиники — а их данные могут существенно отличаться от тех, что использовались при разработке. Наверняка в городские больницы чаще обращаются пациенты из других социально-демографических групп, чьи хронические заболевания нехарактерны для жителей сельской местности. Такие несоответствия можно обнаружить лишь тогда, когда система начнет ошибаться чаще, чем на стадии разработки. Учитывая многообразие рынков и разницу в темпах их развития, становится все сложнее предвидеть, что будет происходить в той среде, где планируется использование системы. И никакие массивы данных не позволят учесть все нюансы реального мира.

Третья причина, по которой алгоритмы машинного обучения принимают некорректные решения, связана с общей сложностью систем, в которые они встраиваются. Представим себе медицинское устройство для диагностики заболеваний по фотографиям, которые загружают врачи: например, аппарат IDx-DR, способный распознавать такие глазные заболевания, как диабетическая ретинопатия и макулярный отек. Это первое автономное медицинское устройство на основе машинного обучения, сертифицированное Управлением по контролю качества пищевых продуктов и лекарственных препаратов США (FDA). Точность диагноза зависит от четкости фотографии, применяемого алгоритма, данных, на которых алгоритм обучался, уровня подготовки врача, загружающего фотографии, и т. д. При таком количестве факторов сложно определить, допустил ли аппарат ошибку, и если да, то почему.

Но некорректные решения — не единственный риск, связанный с машинным обучением. Рассмотрим еще две категории проблем: посреднические риски и моральные риски.

ПОСРЕДНИЧЕСКИЕ РИСКИ

Несовершенство алгоритмов машинного обучения приводит к еще одной проблеме: ряд рисков возникает из-за факторов, неподконтрольных компании или человеку.

Обстоятельства, которые привели к той или иной нештатной ситуации, зачастую можно восстановить на основе фактов. Таким образом руководство может хотя бы приблизительно оценить потенциальную ответственность компании за ущерб. Но алгоритмы машинного обучения обычно встроены в сложную систему, а потому причины сбоев часто остаются неясными. Сложно выяснить, какая сторона, или «посредник» (например, разработчик алгоритма, установщик системы или компания-партнер), несет ответственность за ошибку и в чем корень проблемы: в алгоритме, в данных, загруженных конечным пользователем, или в данных, на которых обучался алгоритм (а они вообще могут поступать от множества внешних поставщиков). Изменчивость среды, в которой работает алгоритм, и вероятностная природа машинного обучения еще больше усложняют выявление посредника, виновного в ошибке. Справедливости ради, нештатные ситуации и неэтичные решения далеко не всегда являются следствием чьей-то халатности — хотя бы потому, что всегда существует вероятность неточного результата.

Руководству важно понимать, когда компания понесет ответственность перед законом, который тоже может измениться. Вернемся к медицинской сфере. Традиционно суды возлагали ответственность за принятие окончательного решения на врачей, а не на разработчиков медицинского ПО. Но подход может измениться: сегодня все больше «черных ящиков» и автономных систем ставят диагнозы и выдают рекомендации без участия или с минимальным участием клинических специалистов. Что же произойдет, если, скажем, система на основе машинного обучения порекомендует пациенту нестандартное лечение (например, повышенную дозировку лекарства), а по новому закону врач будет нести ответственность за причиненный вред лишь в том случае, если не последует рекомендациям системы? При таких изменениях в законодательстве риски возникновения ответственности могут перейти от врачей к разработчикам медицинского оборудования с ИИ, поставщикам данных для обучения алгоритмов или компаниям, занимающимся установкой и развертыванием технологий.

МОРАЛЬНЫЕ РИСКИ

Использование продуктов и сервисов, самостоятельно принимающих решения, сопряжено и с моральными дилеммами — а это влечет дополнительные риски, связанные с разработкой продукта и соблюдением законов. Ученые называют их проблемами ответственной разработки алгоритма. К их числу относится и такая задача, как автоматизация моральных суждений. Например, должна ли компания Tesla программировать «мышление» электромобилей по утилитарной модели сопоставления выгод и издержек — или же по учению Канта, согласно которому нельзя поступиться определенными ценностями ради какой бы то ни было выгоды? Даже при выборе утилитарной модели определить количественные показатели будет очень трудно. Чьи жизни автомобиль должен считать более ценными: трех пожилых людей или одного человека среднего возраста? Как бизнесу найти компромисс между, например, конфиденциальностью, справедливостью, точностью и безопасностью? Можно ли избежать всех связанных с этим рисков?

К моральным рискам также относится предвзятость, связанная с демографическими признаками. Алгоритмы распознавания лиц плохо идентифицируют небелых людей; точность систем для классификации поражений кожи разнится от расы к расе; инструменты прогнозирования рецидивной преступности завышают показатели для афро- и латиноамериканцев, а рейтинги кредитоспособности для них несправедливо занижаются. Системы машинного обучения используются в коммерческих целях, но в некоторых сферах они могут быть предвзятыми к той или иной группе.

Проблема усугубляется наличием множества взаимоисключающих способов определения справедливости и включения ее в алгоритмы. Алгоритм кредитования можно откалибровать (то есть после проверки уровня риска его решения не будут зависеть от групповой принадлежности человека), но он все равно станет слишком часто отказывать в займах кредитоспособным представителям меньшинств. В результате компания может оказаться в патовой ситуации, когда любое ее решение будет неудачным. Если она использует алгоритмы для определения кредитоспособности, ее всегда могут обвинить в дискриминации той или иной группы согласно тому или иному представлению о справедливости. В разных культурах существуют разное понимание справедливости и разные этические дилеммы, и это вызывает сложности при создании продуктов для глобального рынка. В феврале 2020 года Еврокомиссия представила проект нормативного документа по вопросам искусственного интеллекта, в котором содержится призыв разрабатывать ИИ с «европейскими ценностями». Но подойдет ли такой ИИ для тех регионов, где ценности отличаются от европейских?

Наконец, все эти проблемы могут быть вызваны нестабильностью модели. В таком случае практически одинаковые входные данные приведут к разным решениям. Нестабильные алгоритмы будут по-разному работать с похожими людьми — и это может повлечь несправедливость.

Все эти соображения, конечно, не означают, что нужно полностью отказаться от машинного обучения. Напротив, лидерам следует пользоваться возможностями, которые оно открывает, но при этом тщательно разобраться с рисками.

БЛОКИРОВАТЬ ИЛИ НЕ БЛОКИРОВАТЬ?

Если руководство решает применять в компании машинное обучение, ему придется понять, позволять ли алгоритму постоянно эволюционировать — или время от времени устанавливать протестированные и заблокированные версии алгоритма? Поможет ли второй вариант снизить риски?

Полная версия статьи доступна подписчикам на сайте