Технологии
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

«Вас не слышно»: что не так со звуком в видеоконференциях и как это можно изменить

Джеймс Норманн

Фото: Kelly Sikkema / Unsplash

Новая реальность с бесконечной чередой виртуальных совещаний быстро меняет социальные нормы и привлекает интерес к технологиям связи. Платформы для проведения видеоконференций существовали годами, но не предназначались для замены живого общения. После года борьбы с «усталостью от Zoom» пора окинуть свежим взглядом решения и функции, которые помогают людям поддерживать связь, — и подумать, как их улучшить. Одним из важных аспектов видеоконференций является звук. Можно утверждать, что возможность каждого участника разговора слышать другого — наиболее важное свойство личного взаимодействия.

Хороший звук позволяет нам не только понимать слова разговора, но и чувствовать настроение, передаваемое интонациями голоса и окружающими звуками. С другой стороны, плохой звук вызывает раздражение. В видеочатах, где участвуют более двух человек — довольно распространенная ситуация для виртуального неформального общения, собраний команд и совместных обсуждений, — те, кто говорят одновременно, неизбежно заглушают друг друга. Наиболее популярные сегодня платформы видеочатов несовместимы с быстрым диалогом.

Судя по тому, как много компаний продолжают работать удаленно, видеоконференции никуда не денутся. Чтобы сделать встречи и другие собрания более продуктивными (и приятными), важно понимать, что нам не нравится в них сегодня, — и помнить, что разработчикам видеоплатформ следует искать решения в области видеоигр и музыки.

Почему у видеоконференций такой ужасный звук

Если говорить на самом простом уровне, то чувствительность микрофонов у пользователей отличается, что затрудняет объединение звуковых волн в единый аудиопоток. На некоторых платформах это ведет к тому, что побеждает тот, у кого самый громкий голос, на других приоритет получает аудиопоток активного участника. Люди перебивают друг друга, вынуждены повторять и переспрашивать, и в результате ведут себя не так, как при живом общении. Это техническая проблема, которая сводится к так называемой «фазе» между комбинированными звуковыми волнами.

Вот что происходит: две звуковые волны одной частотной сигнатуры, идеально соответствующие друг другу, имеют сдвиг фазы, равный 0, то есть находятся «в фазе». Когда волны, находящиеся в фазе, смешиваются — например, два человека одновременно говорят одно и то же, они производят звук в два раза громче. Проблема возникает, когда две звуковые волны аналогичного частотного диапазона находятся «не в фазе». Когда волны не совпадают, то начинают заглушать друг друга, и если они являются полной противоположностью, и вовсе подавляют друг друга полностью. Шумоподавляющие наушники работают по этому принципу.

В большинстве видеозвонков проблемы с фазой мешают слышать, что говорят другие люди. Когда звуковые волны диалога накладываются друг на друга, заглушаются разные доли волн, возникают точки случайного усиления звука и образуется шум между точками фазы и несовпадения фазы волнового цикла.

Существует еще одна проблема: видеоконференции были разработаны для встреч в офисах, где можно рассчитывать на тишину (хотя даже в идеальных условиях у большинства сервисов имеются слабые места). Что происходит, когда мы хотим виртуально взять кофе, пообщаться, посетить занятие по танцам или сделать что-то еще, что обычно делаем не на работе? Обычно платформы фильтруют звук, чтобы уменьшить объем частот, когда люди не говорят; в сочетании с вышеупомянутыми проблемами фазы, это означает, что звуковое окружение не может участвовать в современных видеочатах без дальнейшего уменьшения (или полного подавления) разборчивости диалога. Поэтому звуки машин, любимый хип-хоп 90-х, играющий фоном в кафе, или ритмичную песню, создающую настроение, лучше оставить для реальной жизни. Это расстраивает. Без шумового фона мы оказываемся в убийственной тишине, когда в разговоре возникают паузы.

Однако мириться с этим ограничением необязательно. В то время как в технологии чатов не решены проблемы, связанные с модуляцией естественного диалога и фоновыми звуками, в других областях — музыке и видеоиграх — звукотехника активно развивается уже в течение некоторого времени.

Чему разработчики видеочатов могут поучиться у индустрии музыки и видеоигр

Когда вы оказываетесь в виртуальном пространстве — например в многопользовательском режиме игры Call of Duty, вы видите его от первого лица и можете без усилий находиться в нем часами. Неслучайно геймеры устают меньше, чем пользователи платформ вроде Zoom. Визуальный опыт сочетается с возможностью ясно слышать все звуки: шумовой фон, звуковые эффекты, сопровождающие действия, диалог членов виртуальной команды и т. д. Прямо перед вами может произойти взрыв, но вы будете слышать кузнечиков на заднем плане и голоса членов команды прямо по центру — и все это у вас в наушниках. Попросту говоря, это возможно благодаря компоновке аудио (или микшированию). Для размещения объектов на определенном расстоянии и в определенном направлении от пользователя совмещение звуковых волн происходит с обработкой сигналов, что облегчает проблемы регулировки фазы и шума.

Полная версия статьи доступна подписчикам на сайте