Google Gemini: на что способна эта нейросеть и какие у неё недостатки (спойлер — их много)

Опубликовано gumarov в 14 декабря, 2023 - 23:03

Блог компании МТС. Корпорация Google совсем недавно представила мультимодальную модель ИИ, которую называет конкурентом GPT-4 от OpenAI. Она умеет обрабатывать текстовую, аудиоинформацию, изображения и видео. На первый взгляд, проект действительно мощный, но, как оказалось, у него немало и недостатков. Подробности — под катом.

Что нам показала компания Google на этот раз?

В своей презентации Сундар Пичаи, генеральный директор Google Inc. и материнской компании Alphabet, заявил, что Gemini может без проблем выполнять такие задачи:

Понимать изображения. Т. е. распознавать различные объекты, разбирать графики, решать сложные задачи мультимодального мышления. Модель «понимает» рукописный текст, распознает и генерирует компьютерный код, таблицы и т. п.
Работать с аудио. Например, автоматически распознавать речь, а также переводить речь с одного языка на другой
Генерировать изображения. Поддерживается генерация сложных последовательностей картинок и текста
Работать с видео. Судя по презентации, модель способна «понимать» действия, происходящие на видео, плюс она умеет создавать точные субтитры к роликам, правда, лишь на английском языке (пока что)

Кроме того, Gemini еще и отвечает на разные вопросы, включая науку, культуру, социологию и т. п., рассуждает на заданные пользователем темы, понимает причины и следствия различных ситуаций. ИИ умеет решать сложные математические задачи, а также пишет код.

На текущий момент есть три версии Gemini:

Ultra. Флагманская модель с максимальными возможностями. Именно она показывает самую высокую производительность в сложных задачах, включая анализ и работу с несколькими модальностями. На её основе планируется запустить продвинутую версию чат-бота Bard Advanced. Ultra будет доступна лишь в 2024 году.

Gemini Pro — версия среднего уровня для более широкого круга задач. Она стала основой Google Bard. Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Чат-бот с Pro-версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Доступ к Pro-версии могут получить корпоративные клиенты Google и разработчики через API на платформах Google Generative AI Studio и Google Cloud Vertex AI, начиная с 13 декабря.

Gemini Nano — это наиболее базовая версия, которая предназначена для локального применения на мобильных устройствах. Она будет доступна для пользователей на смартфонах Google Pixel 8.

Чем Gemini лучше GTP-4?

Подробнее

Пожалуйста, оцените статью:

Источник(и):: Хабр

Добавить свое объявление
Загрузка...

Войдите на сайт для отправки комментариев

Сайт о нанотехнологиях #1 в России

Google Gemini: на что способна эта нейросеть и какие у неё недостатки (спойлер — их много)

Что нам показала компания Google на этот раз?

Чем Gemini лучше GTP-4?

Категории статьи