Технологии
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Как сделать ИИ справедливым

Джош Фист
Фото: LOULOUVONGLUP/GETTY IMAGES

Появляется все больше проектов, основанных на ИИ, больших и маленьких: от автоматической генерации музыки или улучшения трансляций Открытого чемпионата США по теннису до помощи пациентам с коронавирусом в госпиталях. Кажется, что потенциал ИИ безграничен. Но в последние месяцы компании всех отраслей столкнулись одновременно с COVID-19 и с растущей волной опасений по поводу социальной несправедливости, поэтому им приходится выбирать, в каких сферах лучше проводить инновации и совершенствовать процессы. В сфере ИИ компаниям особенно важно принять свою роль и сделать все возможное, чтобы мир стал более справедливым.

Известно, что модели машинного обучения и системы ИИ могут быть предвзятыми, какие-то в большей, какие-то в меньшей степени. Как правило, это объясняют данными, использованными при их разработке и обучении. Исследователи уже давно ищут способы снизить эту предвзятость. ИИ-компании смотрят в будущее, и им необходимо разобраться в разных подходах и методах, которые помогут создать более точные и справедливые модели.

Борьба с дискриминацией — это, в первую очередь, техническая задача. Конкретные приемы различаются в зависимости от этапа машинного обучения — предварительная обработка (подготовка данных перед построением и обучением моделей), собственно обработка (изменение алгоритмов в течение фазы обучения) или постобработка (приемы, которые можно применить уже после обработки обучающих данных). На каждом из этапов есть уникальные возможности избавить модель от дискриминации и создать честную, справедливую технологию. Одной из главных задач должно стать подробное изучение моделей и приемов по борьбе с дискриминацией на каждом из этих этапов и понимание, как внедрить модели на практике.

Предварительная обработка

Сначала нужно решить проблемы в данных, которые используются для разработки моделей машинного обучения — зачастую предвзятость появляется именно на этой стадии. Дискриминация может возникнуть из-за неправильного выбора или отбора данных для обучения — например, нечаянного исключения определенных групп, так что когда модель будет применена к этим группам на практике, ее точность неизбежно окажется ниже, чем для групп, на которых она была обучена. Кроме того, чтобы обучить модель, в данных обычно нужно предварительно проставить метки. Этим занимаются люди, а значит, здесь может возникнуть предвзятость. Чтобы избежать неосознанной дискриминации, нужно, чтобы метки проставляли люди из разных социальных групп.

Один из приемов, который ученые используют, чтобы убедиться, что демографические данные не влияют на результат, — это «гипотетическая справедливость» при другом наборе характеристик (counterfactual fairness). Он полезен в работе над такими задачами, как рассмотрение заявок на поступление в университет. Представьте, что у белого Уильяма из Лос-Анджелеса и у темнокожего Барака из Чикаго одинаковые оценки по экзаменам. Будет ли модель обрабатывать их информацию так же, если поменять демографические данные местами?

Полная версия статьи доступна подписчикам на сайте