Управление инновациями
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Новая научная революция

Хей Тони

О чем только не говорят в холлах исследовательских лабораторий Microsoft Research в Редмонде, штат Вашингтон. Сегодня здесь услышишь новости о многих вещах, вроде бы не имеющих отношения к информатике: о том, как вращаются галактики, о новой вакцине против СПИДа, о стратегиях экономного использования драгоценных запасов пресной воды на планете.

Что общего в этих разговорах и почему всем этим интересуются в корпорации Microsoft? Ответ прост: информация, колоссальные объемы информации. Они настолько огромны, что, когда мы запускаем программы, анализирующие базы данных, в здании, где работают 10 тысяч микропроцессоров, на несколько градусов повышается температура. Сейчас наши компьютерщики вместе с ведущими учеными — астрономами, биологами, химиками, гидрологами, океанологами, физиками, зоологами и многими другими — работают над множеством информационноемких проектов. Для примера назовем разработку принципиально новых лекарств, развитие альтернативной энергетики, создание информационной базы для здравоохранения, с помощью которой можно будет сократить его расходы. И, разумеется, коммерческие информационные проекты. Мы уверены, что еще немного, и, благодаря новому поколению мощных программных средств, позволяющих обрабатывать беспрецедентные объемы данных, доступные множеству разных специалистов, в этих областях знания будут сделаны революционные открытия.

Уже не один десяток лет программисты пытаются заставить компьютер думать, как думают специалисты в той или иной области. Разработаны сложнейшие языковые и логические алгоритмы.

Но, несмотря на все усилия, машины до сих пор не выдают творческих идей и решений, которые приходят на ум лучшим ученым, врачам, инженерам и маркетологам. Талантливые профессионалы не только глубоко понимают информацию, но и видят «между строк», обнаруживая неочевидные связи внутри науки или на стыке наук. В этом и есть суть прозрений. Но сейчас информации столько, что в ней тонут даже светила наук. Цифровые данные текут рекой из всевозможных датчиков, приборов и моделей, их гораздо больше, чем мы можем классифицировать, анализировать и сохранять. В полном соответствии с законом Мура десятилетиями количество микросхем на интегральной схеме удваивалось каждые два года, и до недавнего времени миниатюризация сопровождалась ростом производительности микропроцессоров. Сейчас, чтобы увеличить производительность, надо программировать сложные процессоры на многоядерных чипах, применяя параллельные вычисления. Многоядерная революция грянула как раз тогда, когда начался экспоненциальный рост объема информации. Эту проблему не решить с помощью «заплаток» и апгрейда — надо полностью пересмотреть подход к наукам, требующим обработки большого количества информации. Потому-то несколько лет назад наш покойный коллега Джим Грей, обладатель самой престижной в области информации премии Тьюринга, ввел термин и дал определение «четвертой парадигмы» научного исследования. Грей предвидел, что появится новый мощный инструментарий для анализа, визуализации, поиска и управления научными данными. Эти средства, похоже, дадут единственный надежный шанс решить некоторые глобальные задачи.

Первые две парадигмы научного исследования и открытия — эксперимент и теория — известны давно. Научный опыт как метод восходит к древним грекам и китайцам, которые стремились объяснять наблюдаемое не сверхъестественными, а естественными причинами. Теоретическое естествознание родилось в XVII столетии, и его родоначальником считают Исаака Ньютона.

А когда во второй половине XX века появились мощные компьютеры, нобелевский лауреат Кен Уилсон сформулировал третью парадигму научного исследования — вычисление и моделирование. Компьютерная симуляция, основанная на множестве уравнений, позволили ученым углубиться в области, которые ранее были недоступны для эксперимента и теории, вроде климата или образования галактик.

«Четвертая парадигма» тоже связана с мощными компьютерами. Только теперь не программы пишут на основе известных закономерностей, а, наоборот, закономерности выявляют с помощью программ. Ученые нацеливают алгоритмы на поиск взаимосвязей и значимых корреляций в громадных базах данных. По сути, программы позволяют открывать новые правила. Большой объем данных для нас — не проблема, а часть решения. «Четвертая парадигма» не пытается обойтись вовсе без человека и не отрицает три другие методологии — но она требует новой квалификации ученых. Даже опытнейший специалист не смог бы выйти на те идеи, что сейчас забрезжили на горизонте, если бы он не владел сложными компьютерными средствами управления информацией.

«Машинное обучение» спасает жизни

Для начала проясним, каким типом мышления нужно обладать для такого рода исследований. В 1980-х годах мой коллега Эрик Хорвич учился на врача и проходил практику в госпитале для ветеранов. Там он обратил внимание на тревожную закономерность: в праздничные дни палаты заполнялись больными с острой сердечной недостаточностью. Обязательно находились пациенты, которые, несмотря на слабое сердце, весь год как-то «тянули», но после праздничного застолья попадали в госпиталь. Из-за лишней соли организм накапливал много жидкости, это приводило к отеку легких и одышке и нередко заканчивалось больничной койкой.

Эти послепраздничные приступы обходились дорого во всех смыслах. Порой они уносили жизни: одни умирали мгновенно, другие угасали за несколько дней или недель, по мере того, как выходили из строя физиологические системы. Кому-то везло — их состояние удавалось быстро стабилизировать. Но и этих больных надо было неделю или больше держать в больнице, что обычно обходилось системе страхования ветеранов от $10 до $15 тысяч на пациента (а сегодня эти счета были бы еще выше).

Через двадцать с лишним лет Эрик и его коллеги из Microsoft Research разработали компьютерную методику, позволившую исключительно точно предсказывать, будет ли человек в течение месяца снова госпитализирован с острой сердечной недостаточностью. Суть метода не в том, что компьютеру поручили задавать все вопросы вместо врача-диагноста. Это и не обезличенная статистика повторной госпитализации. Предполагалось так называемое машинное обучение: программа перепахивает всю информацию, содержащуюся в гигантской базе данных (в нашем случае — значения сотен характеристик примерно по 300 тысячам пациентов) в поиске значимых корреляций. Машина сама распознает, какие комбинации факторов создают наибольшие риски, а стало быть, и выявляет пациентов, которые с высокой вероятностью поступят в больницу повторно. Программа вычисляет предрасположенность к рецидиву: она проанализировала тысячи историй болезней с уже известным исходом и благодаря этому, когда в больницу попадает новый пациент и данные по нему собраны, ей легко определить его шанс вскоре оказаться здесь снова.

Этим проектом мы в каком-то смысле обязаны специалисту, выявляющему неочевидные связи. Эрик — дипломированный врач, но у него есть и PhD по информатике, и он понял, что методы машинного обучения, вроде тех, с помощью которых он и его коллеги анализировали движение транспорта в Сиэтле, подойдут и для решения этой важной для здравоохранения проблемы. В 2003 году они разработали способ прогнозирования транспортных пробок, учитывающий данные о движении транспорта по автомагистралям, метеосводки, сообщения о ДТП, о мероприятиях с большим скоплением людей и еще многие факторы. Огромные массивы данных накапливались несколько лет. Та же команда создала программу, сравнивающую данные о пациентах, которые были и не были повторно госпитализированы. Ее задача — выявить взаимосвязи между малоприметными фактами в истории болезни пациента, его медицинскими показателями и даже социальными и экономическими характеристиками (например, живет ли пациент один). Данные собирали из разных источников — скажем, в медицинской карте информации о жизненных обстоятельствах пациента нет, но часто ее можно отыскать в отчете социального работника. Едва ли лечащий врач был бы в состоянии в одиночку переработать объем показателей, необходимый для составления подобного прогноза.

Представим себе, какую экономическую выгоду сулит применение прогностических средств. Зная вероятность повторной госпитализации пациента, врачам или больницам легче принимать адекватные превентивные меры. Вот что говорит Эрик: «Для хронических больных, например с сердечной недостаточностью, можно разработать индивидуальные программы выписки, объяснить человеку все, что он должен знать, и вести мониторинг, чтобы поддерживать его в стабильном, безопасном для жизни состоянии. Эта программа также предполагает, что медсестры будут посещать пациентов или звонить им по телефону. Ее можно дополнить специальными тестами, отмечающими опасные отклонения в водном балансе пациента, о которых будет сообщаться врачу. Если мы потратим хотя бы $500 или $1000 на программы выписки для пациентов с наибольшим риском рецидива, нам удастся свести к минимуму повторные госпитализации, тем самым сэкономить деньги и сделать лечение более эффективным».

Неудивительно, что страховые компании и больницы выстраиваются в очередь, чтобы узнать о таких вещах. И легко себе представить, какие еще организации выиграют от открытий, связанных с обработкой большого количества информации.

На Уолл-стрит мощные программы «прочесывания» информации отслеживают долгосрочные тенденции и паттерны по различным видам инвестиций. Хедж-фонды и финансовые компании ежедневно ставят на кон миллионы долларов, учитывая эти извлеченные из данных взаимосвязи.

В бизнесе у программ, улавливающих паттерны, большое будущее. Выявляя с их помощью закономерности в ценах, покупательских привычках, в характеристиках географических регионов, в доходах семей и многих других массивах данных, компании смогут по-новому анализировать покупателей и рынки. А получив доступ к гигантским объемам информации об эффективности рекламы, лояльности покупателей и их удовлетворенности, о текучести кадров и организации цепочек поставок, — прогнозировать поведение каждого потребителя или сотрудника и вероятность всякого рода проблем. Мы знаем, что компании все чаще выявляют сбои в проплатах и в дебиторской задолженности, «прочесывая» данные. Программы также могут прогнозировать, какой доход должен принести определенный набор услуг. Мы работали с одним провайдером медицинских услуг в Нью-Мехико: за первые шесть месяцев пользования подобными инструментами он выявил недоплаты на $10 млн.

Есть шуточное правило: половина вложенных в рекламу денег окупается, только мы не знаем, какая именно. Новые аналитические методики его отменят. Филиппинская компания из сферы электронных развлечений, применяя технологию Microsoft извлечения значимой информации из данных, разрабатывает новые продукты для конкретных категорий пользователей — на основе расширенного анализа таких факторов, как прошлые покупки, возраст, пол, финансовые условия и место жительства. Как только компания внедрила эту технологию, процент приобретений мелодий для мобильных телефонов и другой продукции удвоился.

Многие спрашивают, для чего Microsoft Research работает над глобальными медицинскими и экологическими проектами, когда есть столько коммерческих задач? В конце концов, разве экологией и гуманитарными проблемами занимается сама корпорация Microsoft, а не Фонд Билла и Мелинды Гейтс? Все так, и тем не менее в Microsoft Research десятки программистов ломают голову над явно некоммерческими задачами, потому что по ним собраны базы данных невообразимого масштаба и потому что это — бесценный испытательный полигон. Расширять возможности мышления и инструментария лучше всего, занимаясь серьезными проблемами, чрезвычайно важными для всего человечества. К тому же это открывает новые перспективы для сотрудничества и экспериментирования. Если специалисты, представляющие разные области знания, будут обмениваться данными, у нас появится больше шансов для стремительного движения вперед. Как любил говорить Джим Грей, самое ценное в данных астрономии — то, что они не обладают коммерческой стоимостью.

Освещаем дно океана

Один из таких масштабных проектов — океанологический. Сейчас на дне Тихого океана к западу от штата Вашингтон и Британской Колумбии ведется строительство. Океаны, покрывающие 70% поверхности Земли, — это самая крупная экосистема планеты. Они формируют погоду; в них зарождаются цунами и ураганы, мощные, опасные и большей частью непредсказуемые явления; в толще воды больше углерода, чем в атмосфере, растительности и почве; наконец, океан — важнейший источник продуктов питания. И несмотря на это, о морском дне нам известно меньше, чем о поверхности Марса или Венеры. Вода не пропускает электромагнитное излучение, с помощью которого мы изучаем небесные тела, поэтому для океанологических исследований приходилось применять подводные лодки, корабли и спутники. Но скоро ситуация изменится. Океанологи — участники проекта Обсерватории океана (OOI) с бюджетом $600 млн, выделенных Национальным научным фондом США, — разместят на участке тихоокеанского дна сеть элементов, назначение которых мой коллега Роджер Барга определяет как «USB-порт океана». OOI протянет 2500 километров кабеля ко дну океана и между датчиками, подключит их к источнику питания и к интернету, чтобы фиксировать разного рода явления и их точное время. А ученые с помощью разных устройств — от обычных термометров до роботов с дистанционным управлением и современных генных секвенаторов — будут эти явления изучать.

Проект задуман как международный. Он даст ученым беспрецедентную возможность оценивать и анализировать природные процессы вроде образования ила или изменения плотности микроорганизмов. Но полученные данные необходимо правильно классифицировать и хранить, иначе все сведется к мертвому грузу цифр. Вот почему Роджер и его группа работает непосредственно с потоком данных, попутно решая, как их распределить между компьютерами, чтобы нигде не перегружать отдельные вычислительные мощности и чтобы ученые, студенты и просто энтузиасты имели к этим данным доступ. Группа разрабатывает стандарты данных, которые позволят аналитическим программам сопоставлять результаты разных экспериментов — для более масштабного анализа. Возможность сочетать информацию из разных источников называется интероперабельностью (совместимостью) данных. А исследователям необходимо соединять и сравнивать данные, полученные с помощью прогностических моделей в лабораториях, с информацией из других источников, в том числе поступающей из сети OOI со дна океана.

«Для нашего времени характерно частое появление и быстрое сближение множества новых развивающихся технологий», — говорит Роджер. Исследование будет направлено на поиск корреляций между разными океаническими процессами, оно углубит наше представление о взаимосвязи суши, океана и атмосферы и, наверное, повысит нашу способность прогнозировать изменения. Ученые смогут количественно оценивать доселе недоступные подводные явления: вулканическую активность, крупные закономерности миграции морских организмов, землетрясения и мощные штормы. Видеосъемка, новые способы визуализации данных позволят студентам, преподавателям и всем желающим наблюдать за развитием этих явлений, а иногда и проводить собственные эксперименты. «Интернет станет самым мощным океанографическим инструментом», — предсказывает Роджер.

Проект OOI будит творческую мысль океанологов: в разных странах разрабатывают новые приборы для подводной лаборатории. В их числе автоматический подводный секвенатор ДНК — устройство размером со стиральную машину. Он будет отфильтровывать обитающие на дне моря живые организмы, считывать и классифицировать их ДНК и отправлять результаты на сушу. Это само по себе впечатляет. Но представьте себе, что информацию о ДНК объединят с данными о загрязнении окружающей среды, кислотности, температуре воды в океане, наличии кочующих биологических видов, способных повлиять на пищевую цепочку (все эти базы данных собраны другими исследователями), и вот оно — наступление новой эры в океанологии.

Полная версия статьи доступна подписчикам на сайте