читайте также
Уже несколько месяцев правительство России и власти Москвы обсуждают особый правовой статус для развития в столице проектов в сфере искусственного интеллекта (ИИ), а создание экспериментальной площадки для этого координирует Сбербанк. Зачем понадобились особые условия? Развитие ИИ предполагает обмен данными между компаниями, в том числе персональными, вроде медицинских и биометрических. Сейчас меняться ими просто так нельзя, и особый статус призван снять правовые преграды. Такая инициатива, конечно, может решить проблему, но это трудоемкий путь, который, на мой взгляд, не защищает от ошибок.
При этом саму ситуация нельзя назвать уникальной. Особого статуса можно было бы избежать, если бы участники проекта обратили внимание, например, на опыт продавцов сахарной свеклы в Дании. Там есть биржа, которая торгует этой самой свеклой. Чтобы понять, насколько урожайным оказался год, и чтобы правильно скорректировать цены, каждый раз требуется оценка общего объема выращенной и реализованной продукции. И каждый раз это проблема: фермеров в Дании не так много, и если каждый из них расскажет о своих урожайных достижениях, то появится возможность манипулировать ценами. На помощь в этой ситуации пришла математика, а точнее — статистическая криптография. Теперь каждый фермер сообщает специальной программе о своем урожае, не раскрывая информацию публично: так получается общий объем, при этом вычислить цифры отдельного фермера невозможно — их бесконечное количество вариантов. По-научному это называется протокол конфиденциальных вычислений (multi-party computation, MPC).
Еще один пример. Вокруг нашей планеты летает огромное количество спутников — как военных, так и гражданских. Их стало настолько много, что периодически они сталкиваются между собой и выходят из строя. Как решить эту проблему? Договориться о траекториях полета. Но военные разных стран не горят желанием раскрывать «маршруты» своих спутников, потому что это военная тайна. А гражданские не будут раскрывать их из-за коммерческой тайны. Ситуацию частично начали решать по методу, обсуждаемому сейчас в России — что-то вроде особого правового статуса: крупнейшие компании стали раскрывать третьей стороне траектории спутников. Тем не менее, американское агентство DARPA в 2010-м году начало разработку решения на основе все того же протокола MPC: так можно будет не бояться, что из-за чьей-то ошибки информация утечет.
Почему бизнес и госучреждения охотятся за данными? Чем больше данных у компаний, тем лучше работают технологии машинного обучения. Например, это касается скоринга клиентов банка, когда надо решить, кому и какой кредит выдать: максимум информации о человеке позволяет точнее оценить его платежеспособность. Существуют десятки сервисов, предоставляющих так называемые альтернативные данные, которые собираются по разным сайтам и приложениям. При этом владельцы основных данных вроде банков или телеком-операторов не могут ими делиться, потому что для этого нет необходимых механизмов.
Классический вариант решения проблемы по обмену данными выглядит так: давайте все зашифруем и будем передавать друг другу. Во-первых, такой способ не всегда легален. Во-вторых, как только компания передала свои данные другим, их ценность для нее потерялась — заработать удается лишь один раз, а не при каждом обращении. При этом и информация устаревает: купив данные однажды, вы столкнетесь с тем, что через какое-то время они станут бесполезны для использования, а инфраструктура для обмена может быть дороже потенциального эффекта от полученных данных. В-третьих, существует вероятность утечки этих данных.
Как протокол MPC может решить эти проблемы? Возьмем любую фотографию: каждый пиксель на ней можно разделить на две и более частей (получится два или более разных цветов). В итоге мы получим две картинки, на которых будет огромное количество разноцветных точек — статистический шум. По отдельности эти картинки — мусор. И существует бесконечное множество вариантов соединения цветов, поэтому восстановить первоначальную фотографию по одной половинке статистически невозможно. Но если половинки наложить друг на друга, то мы вновь получим изначальное изображение.
В реальности все сложнее — нужно больше операций для разделения данных. Но суть та же: по отдельному фрагменту статистически невозможно восстановить изначальные данные, поэтому можно не бояться утечек. При этом недостаточно просто разделить картинки, нужно выполнить полезное действие над частями, например, определить, кто изображен на ней: пингвин или кот. Технология MPC позволяет вычислить практически любую математическую функцию над долями секрета (так называются части, на которые разделены чувствительные данные) — их можно складывать, умножать, сравнивать или выполнять сложные алгоритмы от линейной регрессии до глубоких нейронных сетей.
Такой подход можно использовать в любой сфере, оперирующей с чувствительной информацией: медицине, банковском секторе, транспорте, космической отрасли. Еще один плюс технологии — массивы информации остаются у их владельцев. Фактически происходит не обмен данными между участниками, а обмен знаниями: имеющаяся у разных сторон информация дополняется, обогащается, позволяет делать новые выводы.
Долгое время интерес к протоколу MPC проявляли только в научном сообществе. Тот же проект со свеклой делал научный институт, да и для DARPA проект разрабатывают исследователи. Раньше бизнес-использованию протокола мешали недостаток вычислительных мощностей, низкая скорость каналов связи и плохая программная реализация самого протокола. Но сейчас эти проблемы практически решены. Да, остаются ограничения на вычисления в онлайн-режиме, когда результат нужен за доли секунды, но для медицинских задач или банков она более чем подходит.
Ситуация с протоколом MPC сейчас очень напоминает историю с блокчейном в 2015 году. Если построить график по количеству упоминаний в научных работах на эту тему и числу упоминаний технологии в Twitter, то можно увидеть, что именно в 2015-м линии пересеклись и начался всплеск интереса. С протоколом MPC сейчас происходит то же самое:
Если верить статистике упоминаний в Google Scholar (поиск по научным публикациям), то наибольший интерес к протоколу проявляют в Китае. Там же идут и самые масштабные разработки в сфере ИИ. На втором месте по заинтересованности Индия, на третьем — США.
Технологически протокол MPC готов к коммерческому использованию. Однако чтобы это произошло, придется преодолеть несколько преград: в частности, низкую осведомленность бизнеса и ИТ-специалистов, отсутствие стандартов и, как следствие, неуверенность служб безопасности в надежности технологии. Но все это, на мой взгляд, лишь вопрос времени, популяризации и, наконец, появления полноценных бизнес-кейсов.
Об авторе. Виталий Саттаров — основатель компании Ubic (специализируется на обработке и анализе больших данных).