GigaChat от Сбера стал на 23% точнее и теперь может генерировать музыку

Сбербанк представил обновленную версию своего ИИ-чат-бота GigaChat, оснащенную продвинутой языковой моделью для русского языка с 29 миллиардами параметров. Она отвечает на вопросы пользователей на 23% точнее своей предшественницы. Кроме того, чат-бот научился генерировать музыку по текстовым запросам.

Сбербанк представил обновленную версию своего ИИ-чат-бота GigaChat на международной конференции AI Journey. Новая версия базируется на одной из самых продвинутых больших языковых моделей для русского языка с 29 миллиардами параметров. Это позволит бизнес-клиентам Сбера и академическому сообществу создавать собственные решения на базе GigaChat и проводить исследования. Улучшенная модель на 23% эффективнее предыдущей в суммаризации, рерайтинге, редактировании текстов и ответах на разные вопросы, а точность фактологии увеличилась на 25%.

Для повышения качества работы модели команда экспериментировала с ее обучением, включая использование фреймворка с шардированием весов нейросети по видеокартам, что сократило потребление памяти. В результате, новая версия GigaChat превзошла открытый аналог LLaMA 2 34B в бенчмарке Massive Multitask Language Understanding.

Андрей Белевцев, руководитель блока «Технологии» Сбербанка, отметил, что обучение моделей GigaChat является масштабным вычислительным проектом, превысившим в 6 раз количество операций по сравнению с обучением модели ruGPT-3 в 2021 году. Сбер также разработал уникальный датасет для GigaChat, над которым работают сотни сотрудников, улучшая качество ответов в разных доменах.

Кроме того, GigaChat научился генерировать уникальную музыку по текстовым запросам. Сервис интегрировал нейросети CLaMP и SymFormer, позволяя пользователям формулировать задания, например, создать весёлую музыку в стиле кантри или композицию для лаундж-зоны. GigaChat создаст аудиофайл с музыкальной дорожкой и MIDI-партитурой, совместимой с любой DAW, которую пользователи могут использовать в своих творческих проектах.

Для обучения SymFormer использовалась платформа ML Space на базе суперкомпьютера Christofari с датасетом из более чем 200 тысяч композиций различных музыкальных стилей. Создание музыкальных треков в GigaChat происходит в несколько этапов: текстовый запрос пользователя конвертируется в язык, понятный генератору мелодий, затем модель SysFormer генерирует несколько вариантов мультидорожечной композиции, из которых выбирается наиболее удачный, после чего механизм рендеринга формирует аудиофайл и отправляет результат пользователю.

Денис Филиппов, вице-президент по цифровым поверхностям «Салют» Сбербанка, отметил, что новые возможности GigaChat будут полезны не только для музыкальных энтузиастов и людей творческих профессий, но и для представителей малого и среднего бизнеса, которые смогут использовать сервис для создания фонового музыкального сопровождения и мелодий для рекламных видеороликов.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

ХайТек+