Лингвистика без лингвистов | Большие Идеи

・ Технологии

Лингвистика
без лингвистов

Как создавалась, училась и развивалась модель GPT

Автор: Евгения Чернозатонская

Лингвистика без лингвистов
Google DeepMind / Unsplash

читайте также

Чему на самом деле учат кейсы в Гарвардской школе бизнеса

Нитин Нория

Притча о чаевых

Зиминым Дмитрием «ВымпелКом» ОАО президентом почетным,  основателем рассказанная

Не подражая большинству

Аллен Джеймс,  Зук Крис

Наука, замкнутая на себе

Роберт Каплан

Все уже знают, что ChatGPT — это система искусственного интеллекта (ИИ), понимающая запросы на обычном языке. Лингвисты называют «человеческий» язык естественным в противоположность искусственным языкам — таким, как языки программирования, которыми, кстати, модели GPT тоже вполне овладели. Начиная с конца 2022 года сенсационные сообщения о возможностях новой системы ИИ следовали одно за другим:  

«GPT-4 справилась с экзаменом SAT (стандартный американский экзамен, аналог российского ЕГЭ) лучше, чем 90% выпускников американских школ: она также великолепно сдала школьные экзамены по всем предметам на продвинутом уровне, экзамен на звание адвоката и экзамены для поступления в магистратуру», «GPT написала за три минуты код, на который квалифицированный программист потратил бы три дня», «GPT не захотела сама разгадывать буквы на CAPTCHA и через сервис — аналог отечественного YouDo — наняла человека, готового выполнять эту неприятную работу».

Так в чем же новизна ChatGPT и насколько оправдан хайп вокруг этой языковой модели?

Во-первых, впервые в истории задать вопросы или дать серьезное рабочее задание системе ИИ может любой (правда, в GPT нельзя зарегистрироваться с российского телефонного номера, но это легко обойти). Став общедоступной и легкой в использовании, GPT произвела в общении человека с компьютером революцию, сравнимую с появлением всемирной паутины (www), благодаря которой вот уже почти 30 лет серфить и искать информацию в интернете может каждый.

Во-вторых, универсальность «знаний» и уровень владения языком у ChatGPT действительно превосходят то, что было достигнуто параллельными разработками, которые велись не один десяток лет. Чтобы разобраться, как устроена эта технология, мы поговорили с экспертами из Института проблем передачи информации РАН, Московского физико-технического института и Петербургского ИТМО. Мы благодарны специалистам, которые подробно отвечали на вопросы о том, в чем технологическая новизна разработки (ее выполнила компания OpenAI со штаб-квартирой в Сан-Франциско) и есть ли российские аналоги у этого софта.

Как первоначально обучали GPT

Мы предполагали, что, подобно другим известным системам ИИ, модель GPT, «понимающую» текст, вначале обучали люди: они должны показать ей, как устроено предложение на человеческом языке, где в нем подлежащее, где сказуемое и как слова связаны друг с другом.

Оказалось, что в GPT обучение шло совсем по-иному. В GPT-1, GPT-2, GPT-3 (три предыдущие версии, выпущенные компанией OpenAI) закладка правил построения предложений была минимальной. Подобно тому, как дети учатся говорить, не зная ничего о грамматике, ИИ обучался в автоматическом режиме на огромной и никак не размеченной человеком коллекции текстов. Согласно источникам, для обучения GPT-3 было взято 300 млрд «токенов», или примерно 225 млрд слов на разных языках. Модели «учили» предсказывать следующее слово по предыдущему контексту. Обучение огромной нейросети (у GPT-3 около 175 млрд обучаемых параметров) на таком объеме данных требует массы времени и вычислительных ресурсов. По некоторым оценкам, если для обучения GPT-3 использовать 1024 видеокарты NVidia A100 (стоимость каждой примерно $10 тыс.), оно займет около 34 дней (обучение на одной такой видеокарте, вставленной в обычный ПК, растянется на сотни лет). Поэтому компания-разработчик OpenAI использовала для предобучения суперкомпьютер.

Доступа к столь огромным вычислительным мощностям, как правило, нет ни у ученых, ни у бизнеса. Поэтому такую модель обучают один раз заранее, сохраняют ее и впоследствии применяют как базовый блок, дообучая для выполнения конкретных заданий. Размер модели и специфика предобучения делают ее достаточно гибкой, чтобы можно было подстроить ее почти под любую задачу, связанную с обработкой естественного языка.

Итак, ChatGPT построена из двух независимых частей. Первая — это предобученная модель на основе GPT-3,5 (можно считать, что это несколько модифицированная модель GPT-3), которая была взята в готовом виде. Ее размер и качество позволяли генерировать связный текст в ответ на вопрос даже без дообучения. Но этого было недостаточно, потому что научить модель генерировать слова по контексту — совсем не то же самое, что научить ее вести диалог. В частности, чат-бот должен уметь выполнять инструкции (подсказки), которые ему дает пользователь.

Как дополнительно обучали GPT 

Дообучить модель на данных для конкретных задач — гораздо менее вычислительно трудоемкая операция, доступная сильным научным коллективам и крупному бизнесу.

Вторая часть системы ChatGPT — это и есть набор техник, которые позволяют тренировать предобученную модель таким образом, чтобы она могла вести полноценный диалог с человеком. Для этого используется обучение с подкреплением (reinforcement learning). Объяснить, что это такое, можно с помощью аналогии с обучением с учителем (supervised learning). Допустим, у нас есть модель, которая, принимая на вход некие данные, дает на выходе свой ответ. В процессе «обучения с учителем» у нас есть набор пар <данные, корректный ответ>. Мы передаем модели данные, она генерирует свой ответ, а затем мы показываем ей правильный. Модель, сравнивая свой ответ с корректным, пытается подстроить свои параметры так, чтобы на этих данных ответ был как можно ближе к корректному. Чем больше у нас данных для обучения, тем лучше в итоге модель будет работать.

В случае с обучением с подкреплением готовых правильных ответов нет, зато мы можем тем или иным способом оценить качество ответа модели и заставить модель попытаться изменить свои параметры (методом проб и ошибок, ведь корректного ответа нет). Мы хотим, чтобы она добивалась высокого качества ответов на всех входных данных, на которых ее обучают. В диалоге человека с машиной единственного верного ответа на вопрос обычно не существует, поэтому для обучения диалогового агента и используется обучение с подкреплением. В ChatGPT это происходило за три шага.

Шаг A. Сначала разметчики создали массив (порядка 10 тыс. вхождений) для обучения с учителем. Это был набор пар <инструкция, потенциальный ответ>. Например: «расскажи об обучении с подкреплением простыми словами» или «представь, что мы даем награду ребенку за…». На таких данных модель была дообучена: ей на вход подавали инструкцию, которая задает контекст, просили сгенерировать ответ, потом предлагали правильный ответ, указанный разметчиком, на основе чего модель подстраивала свои параметры. Так ее учили не просто генерировать синтаксически правильный текст, но и отвечать на конкретные запросы.

ШАГ Б. Потом был создан другой список пар <инструкция, список из нескольких возможных ответов>. Разметчик ранжировал эти возможные ответы от лучшего к худшему. Эти данные затем использовались другой моделью, которая на них училась оценивать качество ответа.

ШАГ В. Когда появился способ оценивать качество ответа, подключилось обучение с подкреплением: на вход модели подавали инструкцию и автоматически оценивали качество ответа. Модель пыталась подстроить свои параметры таким образом, чтобы улучшить эту оценку.

Преимущество В над А в том, что В не нужны правильные ответы, получение которых требует существенных человеческих ресурсов. Достаточно большой базы контекстов (ее гораздо проще создать) и дообучения модели посредством обучения с подкреплением.

С точки зрения вычислительных затрат дообучение несравнимо менее трудоемко, чем предобучение. Однако для дообучения все же понадобились размеченные данные, поэтому OpenAI пришлось нанимать дополнительный персонал, который их размечал. Люди вручную научили модель «понимать» примерно 10 тыс. слов — количество неизмеримо меньшее, чем объем неразмеченных данных (напомним, что для предобучения использовали массив из 225 млрд слов).

Какие есть российские аналоги

Аналогичные продукты существуют и для русского языка, но, конечно, их могут разрабатывать и поддерживать только очень крупные компании. Особенно продвинулись на этом пути «Яндекс» (модель YandexGPT на основе GPT-3) и «Сбер» (SberDevices). Cервисом YandexGPT можно воспользоваться для генерации текста, а также для составления рефератов и аннотаций к недлинным статьям. 7 сентября 2023 года вышла его вторая версия: по многим параметрам качество улучшилось.

Был проведен простой эксперимент, при котором задавался ChatGPT и YandexGPT один и тот же вопрос: «Что такое прозрачная зарплата?»

Вот ответ YandexGPT:

«Прозрачная зарплата — это термин, который используется для описания ситуации, когда работнику официально выплачивают всю причитающуюся ему заработную плату без утаивания части средств. Это означает, что работник видит все положенные ему выплаты и может контролировать их, а также быть уверенным в том, что он получает полную сумму, на которую договаривался при приеме на работу.

Прозрачная зарплата подразумевает отсутствие скрытых вычетов или платежей, а также соответствие всех выплат действующему законодательству и коллективным договорам. Она является важным фактором при выборе места работы, так как гарантирует защиту прав работника и его уверенность в справедливом отношении со стороны работодателя».

А вот ответ GPT-4 (вопрос тоже задавался на русском языке):

«Прозрачная зарплата — это концепция, при которой информация о заработной плате всех сотрудников в организации становится открытой и доступной для обсуждения. Это может включать раскрытие информации о зарплате для каждой должности, уровня опыта или даже конкретного сотрудника. Цели прозрачной зарплаты могут включать:

• улучшение мотивации сотрудников: когда сотрудники знают, что оплата исходит из четких критериев и структуры, они могут быть более мотивированы для выполнения своей работы и достижения результатов;

• сокращение неравенства в оплате труда: прозрачность зарплат может способствовать сокращению разрыва в оплате между разными группами сотрудников, такими как мужчины и женщины, или между разными этническими группами;

• улучшение привлечения и удержания талантов: прозрачность зарплат может привлечь кандидатов, которые ищут честную и справедливую систему оплаты труда, и помочь удерживать сотрудников, предоставляя им информацию о своем потенциале роста в компании;

• укрепление доверия и сотрудничества: прозрачность зарплат может способствовать честному и открытому обсуждению оплаты труда, что может улучшить межличностные отношения и сотрудничество между коллегами».

Различие в ответах свидетельствует о том, что модели «Яндекса» и GPT были обучены на разных массивах. Ответ первой говорит о том, что «Яндекс» смешивает понятия «белая зарплата», «честная зарплата» и «прозрачная зарплата». На самом деле «прозрачная» означает две вещи: а) сотрудник знает, сколько получают его коллеги с аналогичными обязанностями и опытом; б) сотрудник может требовать компенсацию или обратиться в суд, если докажет, что его зарплата несправедлива. Мы видим, что GPT-4 лучше разбирается в этой теме, и это немудрено: в последние годы законы о прозрачной зарплате ввели многие страны Европы и едва ли не треть штатов США.

Как сравнивают модели

Мы попросили лингвиста, лауреата премии «Просветитель» Александра Пиперски, поделиться своими впечатлениями от новой разработки: «Ключевой вопрос компьютерной лингвистики — оценка качества модели. Нам может нравиться или не нравиться, как ChatGPT поддерживает диалог с пользователем, но это субъективное впечатление, а не количественная оценка. Надо сравнивать разные модели на конкретных задачах и считать очки, как в спорте. Известный пример такой задачи — так называемые схемы Винограда, где надо понять значение местоимения, которое может измениться от замены одного слова в предложении. Например, во фразе ‘‘Кубок не помещается в коричневый чемодан, потому что он слишком большой’’, слово он относится к кубку, но если заменить большой на маленький, то он — это чемодан. Если собрать много таких задач, которые человек решает легко, а компьютеры — нет, то и получится сравнение моделей».

Заметим, что российская система бенчмаркинга (сравнения) моделей — Russian SuperGLUE (General Language Understanding Evaluation) оценивает именно способность ИИ «понимать» русский язык. По сути, она представляет собой локализацию англоязычного бенчмаркинга SuperGlue. «В российском рейтинге сейчас с небольшим отрывом лидирует модель ‘‘Сбера’’ — но это, конечно, может измениться, — говорит Пиперски. — ChatGPT в таком полноценном спортивном соревновании пока не участвовала, поэтому мы не можем точно оценить ее уровень».

   По мнению доцента ИТМО Валентина Малых, одного из разработчиков системы российского бенчмаркинга, модели ChatGPT и GPT-4 по архитектуре принципиально не отличаются от моделей, которые были представлены компаниями SberDevices и «Яндекс». «Однако существенная характеристика моделей GPT заключается в том, что они используют дообучение на основании общения с человеком, — говорит Малых. — На это косвенно указывает то, что GPT-4 использует только данные, датированные не позднее, чем 2021 годом. Видимо, после этого полтора года модель дообучали. Метод дообучения хотя и был известен давно, практически не использовался разработчиками, потому что, когда сами модели были слабыми, это не давало существенной прибавки к качеству. Сейчас пора задумываться о дообучении моделей для решения конкретных прикладных задач, хотя в России об этом почему-то почти не говорят».

Между тем в мире дообучение на специальных массивах, по-видимому, станет одним из главных методов коммерциализации модели GPT. И это видно как из заявлений самой компании OpenAI, так и из сообщений организаций, которые первыми начали внедрять «общедоступный ИИ» в свои бизнес-процессы. В частности, Bloomberg недавно объявила о создании BloombergGPT, дообученной на 700 млрд токенов из англоязычных финансовых текстов.

Первопроходец дообучения 

Американский инвестиционный банк Morgan Stanley 20 марта 2023 года выпустил заявление о том, что подготовил чат-бота для своих консультантов и аналитиков. С 2022-го банк занимался дообучением GPT-4 на основе тысяч документов, составленных его собственными аналитиками по поводу рынков капитала, разных классов активов, отраслей и прочих важных для инвестиций вещей. Около 200 сотрудников уже используют этот чат-бот в ежедневной работе с клиентами. «Представьте себе, что каждый из аналитиков нашего банка может обратиться к нашему директору по инвестиционной стратегии, директору по глобальному экономическому анализу и директору по стратегии ценных бумаг, а также ко всему нашему сообществу аналитиков в любой день», — сказал глава аналитического подразделения банка Джефф МакМиллан.

GPT-4 нужно дообучать и настраивать, для этого в банке внедрили процесс, в ходе которого системе задают вопросы и добиваются правильных ответов на них. А самих брокеров и финансовых консультантов надо научить, как правильно ставить вопросы и давать GPT-4 подсказки (prompts). «У нас уникальное соглашение с OpenAI, по сути мы вместе ведем разработку, — заявил МакМиллан. — То есть мы не только на год опередили ‘‘конкурентов’’, но и при любой проблеме имеем возможность просто позвонить и задать вопросы людям, которые создали эту технологию».

Что будет дальше 

К лету 2023 года появились и отрезвляющие публикации. Так ученые из Центра Hai (Human Artificial Intelligence) Стэнфордского университета заметили, что GPT-4 поглупела: она гораздо реже, чем раньше, правильно отвечает на элементарный вопрос: является ли некоторое число простым. А по словам юриста и колумниста ресурса Above the Law Джонатана Вулфа, GPT-4 отвечает на юридические вопросы на уровне стажера, закончившего один курс обучения со средним баллом «три».

О том, как системы искусственного интеллекта изменят разные профессии и труд в целом, написаны горы статей. Консультанты активно продвигают мысль о том, что приход языковых моделей изменит весь мир работы. Есть тьма предсказаний о том, какие специалисты станут менее востребованными на рынке, не будем их повторять. К этим предсказаниям надо относиться с известной долей скепсиса: пока от хайпа выигрывают в основном профессионалы консалтинга, потому что на волне ажиотажа инвесторов, с одной стороны, и тревоги бизнесов — с другой, их услуги становятся более востребованными. Они всегда готовы научить вас, как лучше заскочить в поезд, стремительно несущийся к прогрессу.

Давайте посмотрим, однако, как распространение ИИ повлияло на одну-единственную специальность: профессию переводчика. Прогнозы относительно ее будущего не оптимистичны: многие считают, что автоматический перевод полностью вытеснит человеческий. Действительно, системы, основанные на ИИ, такие как Deepl и GPT, переводят все лучше и лучше, и даже для синхронного перевода, который используют на международных конференциях, появились сильные «коробочные» решения. Впрочем, качество перевода очень сильно зависит от языка: если у системы есть доступ к большому массиву готовых хороших переводов, как, например, в паре «английский-французский», результаты впечатляют. Напомним, что современные предобученные языковые модели изначально тренируют на большом объеме данных, как правило, собираемом из интернета. Если же вы попробуете перевести что-либо, например, с венгерского на русский, то, скорее всего, будете разочарованы, хотя по оценке на январь 2023 года, приведенной Statista, русский язык является вторым по распространенности в интернете (англоязычные веб-сайты составляют 58% всего интернета, русскоязычные — 5,3%). «… Если данные специально не очищают от других языков, модели получаются многоязычными. Другой вопрос, что русский (и другие языки), как правило, не является целевым. Это означает, что ‘‘зарубежные’’ модели специально не дообучают на задачах русского языка», — сообщил Валентин Малых.

Это говорит о том, что настоящего «многоязычного», то есть универсального искусственного интеллекта пока не существует. Наверное, когда-нибудь системы дообучат для всех языков. Распространение автоперевода уже нанесло ущерб рынку труда профессиональных переводчиков. Во-первых, от их услуг отказываются даже тогда, когда автоматический перевод заведомо не будет качественным: заказчик зачастую предпочитает «что-то как-нибудь понять из Google Translate», нежели заплатить специалисту. А для тысяч переводчиков, которые трудятся в компаниях за зарплату, закупка работодателем продвинутой системы автоматического перевода зачастую оборачивается увеличением дневной нормы в несколько раз.

***

В нынешних условиях неопределенности компаниям стоит внимательно присматриваться к большим языковым моделям вроде GPT. Не следует, однако, торопиться внедрять их везде — то есть в разные функции — и сразу. В англоязычной литературе пишут, что наиболее перспективные сферы для моделей, работающих с естественным языком, — клиентская поддержка и маркетинг. Это означает, что привычные уже чат-боты вроде Алисы от «Яндекса» будут становиться все более «понятливыми».