читайте также
Пандемия COVID-19 порождает огромные потоки данных. Муниципальные и национальные власти не в состоянии справиться с масштабной проблемой, и на помощь им приходят технологические корпорации. Они оценивают уровень социального дистанцирования по данным мобильных приложений и вышек сотовой связи, разрабатывают ПО для отслеживания контактов на основе геолокации и Bluetooth, строят модели распространения болезни и загрузки больниц. Перед лицом неизвестности эти реальные цифры и факты могут нас успокоить.
Во время такого кризиса, как сейчас, аналитика очень полезна. Она помогает разрабатывать план действий, распределять ресурсы, оценивать эффективность принятых мер (например, социального дистанцирования) и решать, когда можно вновь запускать экономику. Но неполные или неточные данные сбивают с толку: они могут не указать нам на важные нюансы ситуации на местах, социально-экономические и другие ключевые факторы, вызвать панику или, наоборот, создать ложное чувство безопасности — не говоря уже о рисках, связанных с раскрытием конфиденциальной информации без необходимости. Сегодня некачественные данные могут повлечь серьезные ошибки, которые скажутся на благополучии миллионов людей.
К сожалению, не все технологические решения, даже разработанные с лучшими намерениями, дают достаточно объективную картину. Многие из них создаются практически без привлечения экспертов — эпидемиологов, специализирующихся на моделях распространения инфекций, или практикующих врачей, которые погружены в ситуацию и знают о первостепенных потребностях. Но поскольку у технологических и телекоммуникационных компаний, в отличие от академических ученых, есть доступ к информации с мобильных устройств, огромные финансовые ресурсы и крупные аналитические подразделения, их проекты реализуются быстрее, чем серьезные научные исследования.
Все мы — главы компаний, консультанты, чиновники и обычные люди, которые хотят разобраться в происходящем, — должны научиться отличать надежные данные от данных, которые могут ввести в заблуждение или основаны на ошибочных предпосылках.
Распространенные ошибки
Разобраться во всех тонкостях таблиц, графиков и научных работ по силам только специалистам, однако существует несколько тревожных признаков, указывающих на то, что данные могут быть ненадежными. Вот чего стоит остерегаться.
Слишком общие, слишком узкие или вырванные из контекста цифры. Слишком общая статистика — например, показатели социального дистанцирования по странам, публикуемые крупнейшими агрегаторами, — не учитывает очень важные локальные нюансы. Кроме того, такие данные бесполезны для принятия практических решений и даже для сравнения между собой стран с совершенно разными социальными, демографическими и экономическими условиями.
А чрезмерно детализированные данные могут быть попросту опасны. Специалисты системы здравоохранения и эксперты по конфиденциальности следуют принципу соразмерности, используя только самые необходимые сведения: ведь любая информация так или иначе связана с правом людей и сообществ на неприкосновенность частной жизни. Публикация рейтингов самоизоляции по районам может ударить по репутации того или иного места и испортить жизнь его жителям — ведь при этом не будут учитываться социально-экономические причины, вынуждающие людей покидать дома. Чем больше детализация данных, тем хуже: например, обнародование показателей посещаемости конкретных мест может повлечь деанонимизацию религиозных групп, пациентов онкологических клиник, центров репродуктивного здоровья и больниц для ВИЧ-инфицированных, а также людей, подающих заявки на пособия. Специалисты из сферы здравоохранения давно знают, что раскрывать такую информацию без согласия людей недопустимо — но в последнее время ряд компаний публикует ее в открытом доступе.
Но даже к данным с допустимой степенью обобщения нужно относиться с осторожностью: ведь очень многое зависит от конкретных условий. Представьте тебе, что вы видите карту со следующими цифрами: в одном американском городе после принятия мер социального дистанцирования мобильность людей снизилась на 40%, а в его пригороде — всего на 20%. Может оказаться, что 20-процентного снижения в пригороде вполне достаточно для достижения желаемого эффекта, ведь его жители и раньше относительно редко контактировали друг с другом, в то время как 40% для города — это слишком мало, чтобы остановить распространение инфекции, поскольку горожане всегда были очень мобильны. Пока мы не выясним, как эти цифры влияют на распространение эпидемии, их нужно трактовать с осторожностью. Если просто представить их как есть, без необходимого контекста, это приведет к ошибочным решениям: например, введению излишне строгих ограничений или слишком раннему их снятию из-за неполной информации.
Технологии, с помощью которых получены данные, не подвергались тщательной проверке или имеют ограниченную область применения. У таких решений, как отслеживание контактов через мобильные телефоны (многие страны так уже делают), есть большой, но неизученный потенциал. К тому же их внедрение требует продуманной масштабной стратегии и активного участия системы здравоохранения. Джейсон Бэй, менеджер по продукту успешного сингапурского приложения TraceTogether, предупреждает, что «автоматизированное отслеживание контактов — не панацея от коронавируса». Тем не менее подобные приложения используются для разделения людей на группы по уровню риска и принятия на основе этих приблизительных оценок решений о карантине, самоизоляции или свободном перемещении без проведения тестирований.
И разработчики, и пользователи таких приложений должны понимать их недостатки. Они могут оказаться очень полезны, если в ближайшие месяцы будут возникать новые, более локализованные вспышки болезни, а тесты станут доступнее. Но без внятного плана, увязывающего тестирование и лечение, есть риск, что эти приложения будут понапрасну успокаивать горожан, пока бессимптомные носители продолжат распространять болезнь, — или наоборот: неоправданно большое число людей без необходимости окажется в самоизоляции. Кроме того, неизвестно, как люди будут реагировать на эти приложения; очень вероятно, что в разных странах реакция будет разной.
Стоит добавить, что некоторые приложения для отслеживания контактов основаны на непрозрачных методах, так что эксперты не могут их проверить, усовершенствовать или локализовать в других странах. Подобные непрозрачные и непроверенные приложения, которые сейчас внедряются (или уже отзываются) в таких странах, как Китай, Индия, Израиль и Вьетнам, прямо нарушают договор об открытом международном сотрудничестве ученых для борьбы с пандемией COVID-19. На политику в области здравоохранения, от которой зависят жизни миллионов людей, должны влиять только прозрачные и тщательно проверенные алгоритмы.
Модели созданы и представлены без участия экспертов. Технические специалисты и крупные консалтинговые фирмы из лучших побуждений консультируют власти по всему миру — а значит, влияют на судьбы компаний и обычных людей. Они помогают властям разработать стратегию борьбы с эпидемией, создавая модели для прогнозов и планирования действий. Но чтобы создать модель, которая предскажет масштаб и закономерности распространения COVID-19, нужно знать параметры, которые нам пока неизвестны. Мы все еще не знаем самых простых фактов об этой болезни: сколько людей переносит ее бессимптомно, можно ли заразиться ею повторно, а главное — сколько людей уже заразилось. В отсутствие надежных данных о результатах тестирований невозможно создать точные модели и предсказать будущее этой эпидемии, но многие аналитики действуют так, будто полностью уверены в своей информации.
Например, одна ведущая глобальная консалтинговая фирма недавно опубликовала свой прогноз для города на восточном побережье США. Этот прогноз был составлен путем наложения на местную статистику так называемой «уханьской кривой», хотя медицинская инфраструктура и демография двух городов принципиально различаются. Такие упрощенные модели часто оказываются неточными и могут подтолкнуть к несвоевременному отводу дефицитных ресурсов из тех мест, где они особенно нужны. У корпораций есть все необходимое, чтобы просто опубликовать свои данные или передать технологии государствам, — но они предпочитают привлекать собственных экспертов. Их нежелание терять время вполне объяснимо, однако классический подход стартапов «действовать быстро и ломать преграды» здесь неприменим. Важно, чтобы энтузиазм подкреплялся научными знаниями.
Внимательно читайте описания
Всегда стоит обращать внимание на надежность источника информации, но сейчас это особенно важно. Вот несколько маркеров, которые помогут сориентироваться в океане данных.
Прозрачность. Обратите внимание, как представлены данные, технологии, методы и рекомендации. Чем более открыто авторы рассказывают о репрезентативности, методах аналитики и алгоритмах, тем больше они уверены в своем подходе и тем меньше боятся критического изучения, — и скорее всего, им можно доверять.
Пример: когда власти Сингапура представили приложение TraceTogether, они выложили в открытый доступ документы о системе, лежащей в основе приложения, а главное — его протокол (BlueTrace) и базу исходного кода (OpenTrace), так что приложение мог проверить любой желающий.
Осторожность. Остерегайтесь высокомерия. Неоправданное пренебрежение правилами конфиденциальности, правами людей или известными научными фактами свидетельствуют в лучшем случае об излишней самоуверенности, а в худшем — о безрассудстве авторов. Это приводит к самым опасным ошибкам. Осторожные аналитики всегда указывают на неопределенности в своих интерпретациях и излагают выводы с учетом контекста — такие модели более полезны.
Норвежская телекоммуникационная корпорация Telenor показала пример ответственного использования сводных данных о перемещении людей, собранных с помощью вышек мобильной связи. На основании этих данных ученые и врачи моделируют и предсказывают вспышки по всему миру, чтобы власти могли вовремя принять меры. Telenor обнародовала свои методы и составила руководство, как с помощью телекоммуникационных данных предсказывать чрезвычайные ситуации в здравоохранении, избегая риска деанонимизации пользователей.
Компетентность. Ищите профессионалов. Выясните, какова квалификация тех, кто предоставляет и обрабатывает данные. Сейчас мы сталкиваемся с огромным потоком данных и интерпретаций от лжеэкспертов, так что полезные сигналы часто теряются в шуме. Даже в самые спокойные времена мы бы не стали доверять свое здоровье банкирам.
Пример: Имперский колледж Лондона, наряду с другими университетами, с самого начала эпидемии консультирует британские власти по вопросам, связанным с COVID-19, через Центр глобального анализа инфекционных заболеваний. В США власти и система здравоохранения уже давно работают с учеными, а теперь их сотрудничество расширено и углублено. В обеих странах это стало возможно благодаря постоянному финансированию научных центров, которые разрабатывали методологию и накапливали знания в спокойное время и мобилизовались во время кризиса.
Открытые платформы. Ищите тех, кто открыт к сотрудничеству. Некоторые агрегаторы данных помогают сообществам, бизнесу и ученым, публикуя собранные данные или программные коды (не забывая при этом о безопасности и конфиденциальности). Такие открытые экосистемы непросто поддерживать, но они могут оказаться весьма полезны.
Пример: некоторые технологические компании — такие, как Camber Systems, Cubeiq и Facebook — предоставляют собранные данные ученым. Те могут сравнить информацию из разных источников, чтобы оценить репрезентативность, а затем избавить данные от искажений и сделать их более полезными. Над составлением сети данных о мобильности в период пандемии COVID-19 работают эпидемиологи из самых разных стран (в том числе и мы). Они анализируют сводные данные от технологических компаний и каждый день направляют свои выводы чиновникам по всему миру — от Калифорнии до Бангладеш. Власти сообщают, какой информации им не хватает для планирования и выработки мер, а ученые помогают заполнить эти пробелы на основе данных от технологических компаний, представленных в понятной и удобной для интерпретации форме. Процесс обмена данными соответствует строгим этическим требованиям, а также государственным и международным законам. А ежедневные сводки содержат ответы на конкретные запросы чиновников.
Ни одно событие в истории человечества не подвергалось такому интенсивному изучению, как нынешняя пандемия. В глобализованном мире генерируются и публикуются огромные массивы данных. Разумеется, не вся эта информация достаточно надежна. Объемные, децентрализованные и предоставленные разными источниками данные можно преобразовать в информацию, которая спасет жизнь людей, но для этого нужно соблюдать правила прозрачности, научной строгости, компетентности и совместной работы. Прежде чем принять решение, внимательно прочтите текст, убедитесь, что его автору можно доверять, а если возникнут сомнения — обратитесь к экспертам.
Об авторах
Сатчит Балсари (Satchit Balsari) — практикующий врач медицинского центра Бет-Изрейел (Бостон), доцент в области здравоохранения и медицины катастроф Гарвардского университета. Сфера научных интересов — внедрение цифровых методов здравоохранения в условиях ограниченных ресурсов, в том числе при катастрофах, во время войн или в лагерях беженцев. Преподаватель Центра здравоохранения и прав человека в Гарварде.
Кэролайн Баки (Caroline Buckee) — доцент эпидемиологии и заместитель директора Центра динамики инфекционных заболеваний в Гарвардской школе общественного здравоохранения. Специализируется на эпидемиологии и сдерживании таких заразных болезней, как малярия, лихорадка денге и холера. Ее группа анализирует данные с мобильных телефонов, чтобы выяснить, как мобильность влияет на распространение болезней.
Тарун Ханна (Tarun Khanna) — профессор Гарвардской школы бизнеса, директор Гарвардского института Южной Азии, автор книги «Trust: Creating the Foundation for Entrepreneurship in Developing Countries».
* деятельность на территории РФ запрещена