Тренды
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Кто владеет новой нефтью

Аджай Бхалла , Бхаскар Чакраворти , Рави Шанкар Чатурведи

Фото: PAUL TAYLOR/GETTY IMAGES

Какие страны являются ведущими производителями данных? По прогнозам компании McKinsey, использование основанного на данных искусственного интеллекта должно к 2030 году привнести в мировую экономику $13 трлн. Поэтому данные могут сыграть решающую роль в определении нового мирового порядка, аналогично тому, как нефть определяла расстановку сил в экономике ХХ века.

У Китая и США есть все шансы стать ИИ-супердержавами, но источники данных невозможно сконцентрировать в нескольких странах, как это было в случае с нефтяной экономикой. Информацию необходимо черпать из множества разнообразных источников, поэтому новые способы применения ИИ могут возникнуть и в других странах. Формирующийся новый мировой порядок будет сложнее простой биполярной системы, поскольку данные производятся со скоростью, поражающей воображение.

Опираясь на наши предыдущие исследования, в которых мы схематически изобразили эволюцию и цифровую конкуренцию различных стран мира, мы решили попробовать найти самые глубокие и обширные источники полезных данных. Ведь они нужны для работы множества моделей машинного обучения, необходимых для ИИ. Для этого стоит разделить необработанные данные и то, что мы решили назвать «валовой продукт данных» (наша версия нового ВВП). Для выявления мировых лидеров производства «валового продукта данных» мы предлагаем использовать четыре критерия:

Объем: абсолютное количество потребленного страной интернет-трафика как показатель сгенерированных необработанных данных.
Использование: количество активных интернет-пользователей как показатель разнообразия моделей поведения в сети, потребностей пользователей и сценариев использования интернета.
Доступность: открытость институтов к свободному распространению данных как индикатор доступности сгенерированной в стране информации для инноваторов, исследователей и специалистов по ИИ.
Сложность: объем потребления интернет-трафика на душу населения как показатель развитости и сложности цифровой деятельности.

Нужно отметить несколько нюансов. Во-первых, мы понимаем, что к цифровому следу, который оставляют компьютеры по всему миру, относятся самые разные виды деятельности: от рассылки текстовых сообщений до проведения финансовых транзакций. Чтобы не сравнивать несопоставимые величины, мы решили использовать в качестве единицы измерения широты и разнообразия интернет-активности объем интернет-трафика на душу населения (некоторым образом имитируя использование дохода на душу населения в качестве показателя всеобщего благосостояния).

Во-вторых, страны отличаются тем, как персональные данные их граждан распространяются между организациями, а также наличием структур цифровой идентификации личности, позволяющих связать людей с их цифровой активностью. От этих институциональных факторов зависит, как могут быть систематизированы данные. Мы не обсуждаем эти различия. Мы выбрали страны для анализа, исходя из следующих соображений: 1) Они вносят наибольший вклад в глобальную цифровую экономику, так как занимают высокое место в нашем рейтинге Digital Evolution Index, или в быстром темпе наращивают цифровую активность; 2) Они представляют собой примеры территориального и социо-экономического разнообразия; 3) Они предоставили необходимые для анализа сведения и надежные данные.

В-третьих, на доступность данных влияет степень сохранности персональной информации пользователей. Вопросы сохранности и защиты данных могут способствовать или препятствовать совершенствованию ИИ-алгоритмов. Мы считаем, что обеспечение конфиденциальности и защиты данных, а также открытость к мобильности данных выгодны для развития ИИ и оказывают положительный эффект в долгосрочной перспективе. В качестве примера рассмотрим вопрос выявления мошенничества в финансовых операциях. Приложения, в основе которых лежит информация, полученная из разных географических точек, и данные о действиях пользователей в разных контекстах, помогают установить модели благонадежного поведения и отметить действия, угрожающие безопасности. Подобным приложениям идут на пользу системы, отвечающие критериям доступности. Впрочем, мы признаем, что в краткосрочной перспективе некоторые страны (в первую очередь Китай), где обмен данными происходит между государственными и частными организациями и практически не выходит за границы государства, нарушая нормы конфиденциальности и открытости, могут получить временное преимущество в области обучения алгоритмов.

МЕТОДОЛОГИЯ

Данное исследование стало результатом сотрудничества инициативы «Digital Planet» Школы им. Флетчера при Университете Тафтса и компании Mastercard. Мы проанализировали следующие данные из 30 стран:

1. Число пользователей интернета в стране, 2017 г. (Источник: Euromonitor)

2. Совокупный показатель объема интернет-трафика на страну (проводного и мобильного), который был определен с помощью набора сводных данных, созданного вместе с компанией Cisco, и данных Международного союза электросвязи в качестве дополнительного источника.

3. IP-трафик в терабайтах, 2017 г. (Источник: Cisco)

4. Высокоскоростной мобильный интернет-трафик (внутри страны, 2017 г.) в терабайтах + проводной высокоскоростной интернет-трафик в терабайтах, 2017 г. (Источник: Международный союз электросвязи)

5. Показатель №2, поделенный на показатель №1, дает потребление интернет-трафика на душу населения.

Институциональные препятствия потоку данных оценивались с учетом следующих факторов:

1. Насколько открыто государство делится данными. Выводы сделаны на основе информации об открытости государства и распространении информации. (Источник: Global Open Data Index/Open Government Partnership)

2. Насколько защита данных и политика конфиденциальности оказывают влияние на свободный обмен данными. Выводы сделаны на основе информации о защите данных и конфиденциальности. (Источник: CNIL)

3. Насколько страны открыты к свободному обмену информацией. Выводы сделаны на основе информации о законах о локализации данных. (Источник: исследование Школы им. Флетчера с привлечением множества национальных агентств и СМИ).

Какие из этих критериев следует использовать, оценивая новый возможный миропорядок, в основе которого лежат данные? Мы уверены, что доступность данных должна оставаться основным критерием. Если принять точку зрения, что самыми значительными и важными способами применения ИИ являются те, что служат на благо общества, то доступ к данным — ключевой фактор. В недавнем исследовании влияния ИИ на общественное благосостояние компания McKinsey назвала недостаточный доступ к данным одним из главных препятствий. Из 18 выявленных McKinsey факторов, ограничивающих позитивное влияние ИИ, шесть связаны с наличием, объемом, качеством и удобством использования информации.

На схеме ниже, опираясь на два названных ранее критерия, мы расположили 30 изученных нами стран.

В то время как США показывают высокие результаты, Китай, вопреки распространенному мнению, испытывает трудности (если считать доступность данных необходимым критерием успешного применения ИИ в будущем). Если рассматривать Европейский союз (в состав которого пока входит Великобритания) как единое целое, он представляет собой одного из главных производителей данных, способного составить конкуренцию США. Кроме того, уверенное второе место могут занять Китай, Бразилия, Индия и Россия — в основном за счет объема производимых ими необработанных данных. Они, впрочем, будут испытывать трудности в связи с ограничениями в доступе к данным.

Другие выводы можно сделать о небольших странах (вроде Новой Зеландии) и странах, не входящих в крупные экономические союзы (вроде Южной Кореи), которые отличаются высокой степенью открытости и мобильности потоков данных. Этим странам пойдет на пользу заключение торговых соглашений, касающихся распространения информации, с другими «открытыми» странами. Так они смогут преодолеть естественные ограничения, касающиеся числа пользователей и общего потребляемого интернет-трафика. Пока неизвестно, какую форму могут принять подобные торговые соглашения или соглашения об обмене данными, но то, что они появятся, кажется весьма вероятным — особенно, если мы признаем, что валовой продукт данных, как и любой другой продукт, имеет ценность.

Полная версия статьи доступна подписчикам на сайте