Технологии
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Парадокс прозрачности: чем опасен искусственный интеллект

Эндрю Берт
Фото: Jorg Greuel/Getty Images

В последние годы исследователи и практики выступают за повышение прозрачности внутренних механизмов моделей искусственного интеллекта, и на то есть причины. Прозрачность позволит решить проблемы справедливости, дискриминации и доверия, о которых в последнее время все чаще говорят. Новый проект виртуальных кредитных карт Apple Card обвинили в применении дискриминационных моделей кредитования по гендерному признаку. Компания Amazon отказалась от использования инструмента на основе ИИ при приеме на работу, обнаружив, что он дискриминирует женщин.

В то же время становится ясно, что раскрытие информации об ИИ тоже создает свои риски: предоставление дополнительной информации может сделать ИИ более уязвимым перед атаками хакеров, а раскрытие сведений о применении ИИ может навлечь на компании судебные иски и санкции со стороны регулирующих органов.

Возникает так называемый «парадокс прозрачности» ИИ: дополнительная информация об ИИ может дать реальные преимущества, но может и создать новые угрозы. Чтобы справиться с этим, организациям понадобится хорошо обдумать методы управления рисками ИИ, публикуемой ими информации об угрозах, а также способах ее распространения и защиты.

Описанные тенденции проанализированы в недавних исследованиях. Начнем с исследования, проведенного специалистами Гарвардского университета и Калифорнийского университета в Ирвайне, опубликованного в ноябре 2019 года. Работа посвящена проблеме возможных взломов двух популярных методов, используемых для объяснения алгоритмов модели «черный ящик» — методов LIME и SHAP.

Для иллюстрации эффективности LIME в работе 2016 года объяснялось, как распознает объекты классификатор изображений с изначально не известным принципом работы: например, акустическая гитара распознается по порожку и частям грифа, а лабрадор-ретривер — по специфическим чертам на морде собаки с правой стороны.

LIME (и в целом движение за объяснимый ИИ) считается революционной технологией, способной сделать малопонятные алгоритмы более прозрачными. Преимущества объяснимости ИИ получили широкое признание и активно поддерживаются как учеными, так и специалистами в области технологии, в том числе мною.

Но потенциальная возможность новых атак на LIME и SHAP заставляет обратить внимание на недостаток этих методов, который часто упускают из виду. Как иллюстрирует исследование, объяснениями можно намеренно манипулировать, что ведет к утрате доверия к ним и самой модели.

Потенциальные риски прозрачности ИИ описаны не только в упомянутом исследовании. В начале этого года Реза Шокри и его коллеги продемонстрировали, как раскрытие информации об алгоритмах машинного обучения может сделать их более уязвимыми перед атаками хакеров. Тем временем исследователи из Калифорнийского университета в Беркли показали, что можно украсть целые алгоритмы, воспользовавшись объяснениями их работы.

Полная версия статьи доступна подписчикам на сайте