читайте также
Появляется все больше проектов, основанных на ИИ, больших и маленьких: от автоматической генерации музыки или улучшения трансляций Открытого чемпионата США по теннису до помощи пациентам с коронавирусом в госпиталях. Кажется, что потенциал ИИ безграничен. Но в последние месяцы компании всех отраслей столкнулись одновременно с COVID-19 и с растущей волной опасений по поводу социальной несправедливости, поэтому им приходится выбирать, в каких сферах лучше проводить инновации и совершенствовать процессы. В сфере ИИ компаниям особенно важно принять свою роль и сделать все возможное, чтобы мир стал более справедливым.
Известно, что модели машинного обучения и системы ИИ могут быть предвзятыми, какие-то в большей, какие-то в меньшей степени. Как правило, это объясняют данными, использованными при их разработке и обучении. Исследователи уже давно ищут способы снизить эту предвзятость. ИИ-компании смотрят в будущее, и им необходимо разобраться в разных подходах и методах, которые помогут создать более точные и справедливые модели.
Борьба с дискриминацией — это, в первую очередь, техническая задача. Конкретные приемы различаются в зависимости от этапа машинного обучения — предварительная обработка (подготовка данных перед построением и обучением моделей), собственно обработка (изменение алгоритмов в течение фазы обучения) или постобработка (приемы, которые можно применить уже после обработки обучающих данных). На каждом из этапов есть уникальные возможности избавить модель от дискриминации и создать честную, справедливую технологию. Одной из главных задач должно стать подробное изучение моделей и приемов по борьбе с дискриминацией на каждом из этих этапов и понимание, как внедрить модели на практике.
Предварительная обработка
Сначала нужно решить проблемы в данных, которые используются для разработки моделей машинного обучения — зачастую предвзятость появляется именно на этой стадии. Дискриминация может возникнуть из-за неправильного выбора или отбора данных для обучения — например, нечаянного исключения определенных групп, так что когда модель будет применена к этим группам на практике, ее точность неизбежно окажется ниже, чем для групп, на которых она была обучена. Кроме того, чтобы обучить модель, в данных обычно нужно предварительно проставить метки. Этим занимаются люди, а значит, здесь может возникнуть предвзятость. Чтобы избежать неосознанной дискриминации, нужно, чтобы метки проставляли люди из разных социальных групп.
Один из приемов, который ученые используют, чтобы убедиться, что демографические данные не влияют на результат, — это «гипотетическая справедливость» при другом наборе характеристик (counterfactual fairness). Он полезен в работе над такими задачами, как рассмотрение заявок на поступление в университет. Представьте, что у белого Уильяма из Лос-Анджелеса и у темнокожего Барака из Чикаго одинаковые оценки по экзаменам. Будет ли модель обрабатывать их информацию так же, если поменять демографические данные местами?
Если модель будет использоваться для предсказания результатов и принятия решений — например, кого именно в этом году примут в университет, — данные для ее обучения нужно тщательно отбирать и тестировать. Особенно важно проследить, как на результат влияют такие параметры, как раса и пол.
Обработка в ходе обучения
При обучении модели можно воспользоваться специальными приемами и регуляризацией, чтобы обеспечить справедливость и избавиться от предвзятости.
Например, можно использовать состязательное обучение (adversarial training), когда модель одновременно обучают минимизировать ошибки в первичной цели (например, подтверждать или отвергать заявки в университет) и параллельно в другой части отучают предсказывать факты, которые не должны влиять на результат (например, расу человека).
Моя компания недавно провела исследование по борьбе с гендерной предвзятостью в распознавании эмоций в речи и выяснила, что простое исключение ошибки при обучении может сделать модель более справедливой и последовательной. Мы сравнили результат после современной техники состязательного обучения и результат без специальных исправлений. Без специальных приемов точность эмоциональной активации оказывалась для образцов женского голоса ниже, чем для мужского. Но простое изменение величины погрешности при обучении модели помогло нам почти полностью избавиться от этой предвзятости, сохранив общую точность модели на высоком уровне.
Постобработка
Постобработка — последний этап, когда можно исправить предвзятость. На этой стадии особенно популярен один конкретный прием: классификация с опцией отклонения (reject option-based classification). В его основе лежит предположение, что дискриминация возникает в ситуациях, когда модели наименее уверены в своих предсказаниях, поэтому они определяют «зону низкой уверенности» и удаляют принадлежащие к ней результаты, чтобы снизить общую предвзятость результатов и избежать потенциально опасных предсказаний. Кроме того, следя за количеством отвергнутых предположений, инженеры и ученые могут отслеживать изменения качества данных и новые риски предвзятости.
Как сделать ИИ справедливым
Современные технологии машинного обучения необходимо разрабатывать таким образом, чтобы сознательно избавиться от предвзятости. На это нужно время, но чтобы развивать технологию, нужно понимать факт дискриминации, честно обсуждать текущие проблемы и стремиться их исправить. Как я писал год назад, и проблемы, и их решения в сфере дискриминации ИИ не всегда очевидны. Даже саму «справедливость» нужно оценивать количественно, чтобы избавиться от нежелательной предвзятости.
Теперь, в свете долгосрочных последствий пандемии и социальных протестов, для нас еще важнее разобраться с предвзятостью ИИ. Вот несколько способов, как ваша организация может постараться сделать ИИ более справедливым:
Используйте более разнообразные образцы для обучения, чтобы избежать расовой, гендерной, этнической и возрастной дискриминации.
Что бы вы ни оценивали — аудиофайлы или обычные данные, — у каждого образца обязательно должно быть несколько аннотаций, написанных людьми из разных социальных групп.
Измеряйте точность модели отдельно для разных демографических категорий, чтобы проверить, нет ли к какой-либо из этих категорий несправедливого отношения.
Если вы опасаетесь, что для какой-либо из групп (по гендеру, расе, национальности, возрасту и т. д.) риск предвзятости более высок, соберите для нее больше данных и примените специальные приемы, чтобы избежать ошибок.
Регулярно проверяйте модели на точность и справедливость с помощью автоматических и ручных приемов. Регулярно обновляйте / переобучайте модели с использованием новых данных.
Конечно, полностью избавиться от предвзятости в ИИ невозможно, но разработчики должны помогать бороться с дискриминацией в будущих технологиях. ИИ играет все более важную роль в нашей жизни и обещает множество будущих инноваций, поэтому важно признать и преодолевать предвзятость наших технологий — и общества в целом.
Об авторе
Джош Фист (Josh Feast) — CEO и сооснователь компании Cogito, серийный предприниматель, стремится создавать инновационные технологии, которые помогают людям жить более продуктивной жизнью.