«Вас не слышно»: что не так со звуком в видеоконференциях и как это можно изменить | Большие Идеи

・ Технологии
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

«Вас не слышно»: что не так со звуком в видеоконференциях и как это
можно изменить

Почему разработчикам платформ видеоконференций пора заняться звуком

Автор: Джеймс Норманн

«Вас не слышно»: что не так со звуком в видеоконференциях и как это можно изменить
Kelly Sikkema / Unsplash

читайте также

Когда скандал обрушил репутацию знаменитости

Как дискриминация влияет на экономику

Килиан Хубер,  Фабиан Вальдингер,  Фолькер Линденталь

Невыносимая тяжесть творчества

Ирина Пешкова

И пусть все будут довольны

Громковский Владимир

Новая реальность с бесконечной чередой виртуальных совещаний быстро меняет социальные нормы и привлекает интерес к технологиям связи. Платформы для проведения видеоконференций существовали годами, но не предназначались для замены живого общения. После года борьбы с «усталостью от Zoom» пора окинуть свежим взглядом решения и функции, которые помогают людям поддерживать связь, — и подумать, как их улучшить. Одним из важных аспектов видеоконференций является звук. Можно утверждать, что возможность каждого участника разговора слышать другого — наиболее важное свойство личного взаимодействия.

Хороший звук позволяет нам не только понимать слова разговора, но и чувствовать настроение, передаваемое интонациями голоса и окружающими звуками. С другой стороны, плохой звук вызывает раздражение. В видеочатах, где участвуют более двух человек — довольно распространенная ситуация для виртуального неформального общения, собраний команд и совместных обсуждений, — те, кто говорят одновременно, неизбежно заглушают друг друга. Наиболее популярные сегодня платформы видеочатов несовместимы с быстрым диалогом.

Судя по тому, как много компаний продолжают работать удаленно, видеоконференции никуда не денутся. Чтобы сделать встречи и другие собрания более продуктивными (и приятными), важно понимать, что нам не нравится в них сегодня, — и помнить, что разработчикам видеоплатформ следует искать решения в области видеоигр и музыки.

Почему у видеоконференций такой ужасный звук

Если говорить на самом простом уровне, то чувствительность микрофонов у пользователей отличается, что затрудняет объединение звуковых волн в единый аудиопоток. На некоторых платформах это ведет к тому, что побеждает тот, у кого самый громкий голос, на других приоритет получает аудиопоток активного участника. Люди перебивают друг друга, вынуждены повторять и переспрашивать, и в результате ведут себя не так, как при живом общении. Это техническая проблема, которая сводится к так называемой «фазе» между комбинированными звуковыми волнами.

Вот что происходит: две звуковые волны одной частотной сигнатуры, идеально соответствующие друг другу, имеют сдвиг фазы, равный 0, то есть находятся «в фазе». Когда волны, находящиеся в фазе, смешиваются — например, два человека одновременно говорят одно и то же, они производят звук в два раза громче. Проблема возникает, когда две звуковые волны аналогичного частотного диапазона находятся «не в фазе». Когда волны не совпадают, то начинают заглушать друг друга, и если они являются полной противоположностью, и вовсе подавляют друг друга полностью. Шумоподавляющие наушники работают по этому принципу.

В большинстве видеозвонков проблемы с фазой мешают слышать, что говорят другие люди. Когда звуковые волны диалога накладываются друг на друга, заглушаются разные доли волн, возникают точки случайного усиления звука и образуется шум между точками фазы и несовпадения фазы волнового цикла.

Существует еще одна проблема: видеоконференции были разработаны для встреч в офисах, где можно рассчитывать на тишину (хотя даже в идеальных условиях у большинства сервисов имеются слабые места). Что происходит, когда мы хотим виртуально взять кофе, пообщаться, посетить занятие по танцам или сделать что-то еще, что обычно делаем не на работе? Обычно платформы фильтруют звук, чтобы уменьшить объем частот, когда люди не говорят; в сочетании с вышеупомянутыми проблемами фазы, это означает, что звуковое окружение не может участвовать в современных видеочатах без дальнейшего уменьшения (или полного подавления) разборчивости диалога. Поэтому звуки машин, любимый хип-хоп 90-х, играющий фоном в кафе, или ритмичную песню, создающую настроение, лучше оставить для реальной жизни. Это расстраивает. Без шумового фона мы оказываемся в убийственной тишине, когда в разговоре возникают паузы.

Однако мириться с этим ограничением необязательно. В то время как в технологии чатов не решены проблемы, связанные с модуляцией естественного диалога и фоновыми звуками, в других областях — музыке и видеоиграх — звукотехника активно развивается уже в течение некоторого времени.

Чему разработчики видеочатов могут поучиться у индустрии музыки и видеоигр

Когда вы оказываетесь в виртуальном пространстве — например в многопользовательском режиме игры Call of Duty, вы видите его от первого лица и можете без усилий находиться в нем часами. Неслучайно геймеры устают меньше, чем пользователи платформ вроде Zoom. Визуальный опыт сочетается с возможностью ясно слышать все звуки: шумовой фон, звуковые эффекты, сопровождающие действия, диалог членов виртуальной команды и т. д. Прямо перед вами может произойти взрыв, но вы будете слышать кузнечиков на заднем плане и голоса членов команды прямо по центру — и все это у вас в наушниках. Попросту говоря, это возможно благодаря компоновке аудио (или микшированию). Для размещения объектов на определенном расстоянии и в определенном направлении от пользователя совмещение звуковых волн происходит с обработкой сигналов, что облегчает проблемы регулировки фазы и шума.

Этот аналог распространяется и на музыку. Возможно, вы не отдаете себе отчета, но в музыке микширование применяется с тех пор, как мы начали добавлять множество звуков для создания уникального опыта. В музыке продюсеры не только сочетают голос главного исполнителя и бэк-вокалистов, но также добавляют струнные, духовые, басы и другие инструменты, чтобы получился хит. Звукорежиссеры делают так, чтобы инструменты не конфликтовали, громкость была подходящей и основная эмоция песни выражалась с помощью правильной режиссуры звуков композиции (применения фильтров, компрессии и т. д.).

Если вы сравните звук в музыке (и видеоиграх), то поймете, какой путь еще предстоит проделать видеоконференциям. Попробуйте послушать одну из ваших любимых песен с закрытыми глазами — определите по восприятию, какое положение на звуковой сцене занимает голос по сравнению с другими инструментами, играющими мелодию. Затем, в следующий раз, когда будете общаться с двумя другими людьми в Google-чате со своего компьютера, послушайте, откуда идут их голоса. Во время видеочата вы заметите, что звуковая сцена не используется в той мере, в какой должна.

Разработчики видеочатов могут брать пример со звукоинженеров музыкальной индустрии, десятилетиями отвечающих за обеспечение почти идеального звука. Подумайте, как это может пригодиться для звука во время виртуальной встречи. Представьте себе, что одного человека больше слышите слева, другого — справа, в то время как на внешнем крае звуковой сцены играет фоновая музыка. Теперь у вас более естественное взаимодействие, и благодаря тому, что звуковая сцена больше влияет на впечатления от видеочата, мозг пользователя может лучше сопоставлять звук диалога с источником на экране. Такой подход помогает пользователям лучше ориентироваться и ведет к уменьшению усталости от Zoom.

Как улучшить видеочат

Поскольку звук выходит на первый план в видеочатах, компании вроде Pilotly (где я занимаю должность CEO) и BlueJeans разрабатывают решения для виртуальных разговоров будущего. Вместе с лидерами в области обработки звука обе компании применяют в видеочатах алгоритмы, повышающие разборчивость диалогов с помощью качественного сведения звука.

BlueJeans, недавно купленная компанией Verizon, одной из первых вместе с партнером — Dolby — стала работать над улучшением качества пользовательского опыта. Чтобы четкий диалог занял важное место в их ценностном предложении, они использовали систему Dolby Voice, которая нормализует уровень звука, оптимизирует диапазон частот голоса, уменьшает шум и сводит звук в облаке, чтобы он не подавлялся, когда во время встречи говорят сразу несколько человек.

Другие компании могут последовать этому примеру. В настоящее время Dolby работает над тем, чтобы приложениям было легче улучшать возможности звука. Пол Баустед, главный архитектор группы деловых коммуникаций Dolby, говорит, что расширение области применения этих технологий является для компании приоритетом. «Я специализируюсь на аудио- и видеокоммуникациях более 20 лет в качестве исследователя, инженера и архитектора, — говорит он. — Я действительно стараюсь сделать онлайн-коммуникации как можно более естественными».

Платформа для видеочатов компании Pilotly под названием Reelchat стремится создать виртуальное пространство, напоминающее игровое. Первой областью применения Reelchat были виртуальные фокус-группы, где важен быстрый, свободный разговор, в котором можно было бы слышать одновременно более одного человека — как во время встречи или неформального общения. Это одна из причин, по которым мы отдали приоритет компоновке аудио для создания максимального комфорта и интуитивного общения участников беседы. Мы убеждены, что для улучшения виртуального взаимодействия людей важно создать пользователям пространство, где звук существует более естественным образом.

Дальнейшее совершенствование технологий видеочатов будет играть центральную роль в успехе бизнеса, высшего образования и социальных связей, пока остаются в силе ограничения на живое взаимодействие в период пандемии. Звуку, роль которого в общении с помощью визуальных средств долгое время игнорировалась, принадлежит будущее. В индустрии игр и музыки это понимают, и следующий этап развития платформ для сотрудничества и общения будет связан со сведением звука того же типа, что применяется в музыке.

Об авторе

Джеймс Норманн (James Norman) — серийный предприниматель, создавший свою первую онлайн-компанию в 16 лет. Его последний проект, Pilotly, представляет собой потребительскую платформу, позволяющую создателям контента получать обратную связь от аудитории и используемую NBCUniversal, Amazon Studios, Mattel и другими.