Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»
Как IBM делает ИИ справедливее
Франческа Росси
Человеческому мышлению присущи разные виды систематических ошибок. Например, у нас есть склонность к подтверждению своей точки зрения, из-за которой нам свойственно фокусировать внимание на том, что подкрепляет наши предварительные суждения по тому или иному вопросу. Эффект якорения побуждает нас принимать решения, основываясь на той порции информации по теме, которую мы получили первой. Из-за гендерных предубеждений мы ассоциируем женщин с одними личностными особенностями, занятиями или профессиями, а мужчин — с другими. Когда мы принимаем решения, эти предрассудки часто прокрадываются в наше сознание и в конечном счете приводят к тому, что наши решения оказываются несправедливыми и необъективными.
Те же самые виды систематических ошибок может допускать и искусственный интеллект (ИИ), особенно если при программировании основанной на нем системы использовалось машинное обучение. Обычно при этом применяется техника «обучение с учителем», при которой ИИ-системы обучаются на большом количестве примеров, представляющих собой задачи с решениями. Так, если мы хотим построить ИИ-систему, способную решить, когда принять и когда отклонить заявку на кредит, мы будем обучать ее на множестве примеров заявок на ссуды, сообщая ей решение, принятое по каждой из них (то есть одобрена она или отклонена).
Обучаемая система находит при этом в таких примерах корреляции, на основе которых принимает (будем надеяться, правильные) решения по поводу новых заявок на кредит. После этапа обучения наступает этап проверки на другом наборе таких заявок, что позволяет выяснить, достаточно ли точна система и готова ли она к запуску. Однако если для обучения применяется недостаточно сбалансированный и инклюзивный массив данных, не дающий полного представления об аспектах проблемы, которую мы хотим решить, ИИ-система может обрасти предрассудками. Например, если в обучающем массиве данных все принятые заявки на кредиты относятся к мужчинам, а все отклоненные — к женщинам, система усвоит корреляцию между гендером заявителя и судьбой его заявки, и в результате обзаведется предубеждением, которым будет руководствоваться при рассмотрении дальнейших заявок.
Другой пример того, как систематическая ошибка закрадывается в массивы данных для обучения ИИ, — ситуация, когда для одной группы указывается гораздо больше параметров, чем для другой. В данном случае ИИ-система может неодинаково точно оценивать представителей этих двух групп, так как одну из них изучит лучше (получив больше информации о ней). В случае принятия судьбоносных решений, относящихся к финансовому сектору, здравоохранению или правовой сфере, использование предвзятой ИИ-системы может привести к тому, что эти решения будут более благоприятны для одной из этих групп за счет интересов другой. Это неприемлемо, особенно для решений, которые могут существенно влиять на жизни людей.
Сейчас есть алгоритмы, которые могут выявлять и сглаживать систематические ошибки в ИИ-системах. Однако систематические ошибки ИИ — невероятно сложная сфера, и для их выявления в разных типах данных (изображениях, тексте, речи, структурированной информации) в составе каждого обучающего массива требуются разные техники. Систематические ошибки также могут прокрасться в ИИ-систему и на других этапах жизненного цикла, не только через обучающий массив данных. Например, представьте ИИ-систему, которая должна выявлять основную причину запроса на кредит — покупка жилья, оплата обучения или юридических услуг — и отдавать предпочтение представителям назначенных разработчиками категорий заявителей перед другими. Если разработчики опустят одну из причин, по которым люди подают заявление на получение кредита, заявители, руководствующиеся этим мотивом, будут забракованы.
Как же решить эту усугубляющуюся проблему? Вот что мы предпринимаем в IBM, чтобы сделать ИИ справедливее, прозрачнее и точнее.