Включите исполнение JavaScript в браузере, чтобы запустить приложение.
20 янв 2025

Новая модель ИИ Gemini от Google: обзор возможностей и руководство по использованию

Новая языковая модель Gemini от Google меняет подход к работе с искусственным интеллектом, предлагая инструменты для создания и анализа текста, изображений, кода и данных в одном решении. В этой статье рассмотрим ключевые особенности Gemini, ее преимущества перед конкурентами и сценарии применения в реальных проектах.

Что такое Gemini

Gemini — это семейство инновационных языковых моделей, разработанных компанией Google. Gemini способна к качественной обработке естественного языка, работе с изображениями и, конечно, умеет просто отвечать на вопросы. Модель была построена на базе архитектуры Transformer и обучена на колоссальных объемах данных, хорошо понимает контекст, а также связи между словами и выражениями.

Особенности модели

Одной из главных особенностей модели является ее способность работать с разными видами данных: текст, аудио, видео и изображения. А последняя версия Gemini позволяет обрабатывать большие объемы всех этих видов данных за счет увеличенного контекстного окна.

Еще одной особенностью является то, что пользователи могут просматривать черновики ответов и выбирать между ними наилучший вариант. В дополнение Gemini не обязательно просить сделать ответ длиннее/короче и более или менее формальным — для управления этими параметрами на нижней панели ответа есть специальная иконка.

Также Gemini интегрирована с другими сервисами Google, например, с Google Slides, Google Cloud, Google Assistant и предлагает API.

Версии Gemini 

На текущий момент можно выделить пять версий Gemini. Рассмотрим каждую из них подробнее.

Gemini 1.0 Pro

Бесплатная версия, на основе которой работает чат-бот. Ее достаточно для решения базовых задач, включая генерацию текста, кода и картинок, анализа информации и так далее.

Gemini 1.0 Ultra

Gemini 1.0 Ultra — это более продвинутая версия, чем Gemini 1.0 Pro. Она способна обрабатывать огромные объемы информации, а также лучше справляется со сложными задачами. Версия Ultra лучше анализирует текст, аудио, изображения и имеет повышенную производительность.

Gemini 1.0 Nano

Компактная версия, которая создавалась для использования на мобильных устройствах и интеграции в некоторые сервисы. Ее вычислительная мощность ниже, чем у других версий, но ее все еще достаточно для решения многих задач, например, для обработки текста.

Gemini 1.5 Pro 

Эта версия была выпущена в начале 2024 года, она подходит для решения более сложных и объемных задач за счет увеличенного до 2 миллионов токенов контекстного окна. В Gemini 1.5 Pro улучшены функции анализа аудио и видео, повышена производительность, а также этичность и безопасность ответов модели.

Gemini 1.5 Flash

Более быстрая версия, чем Gemini 1.5 Pro, которая может использоваться для решения задач, требующих минимальной задержки, при этом контекстное окно Gemini 1.5 Flash меньше, чем у Pro-версии.

Возможности Gemini 

Gemini представляет из себя модель, способную решать достаточно широкий спектр задач, включая следующие:

  • генерация контента. Gemini умеет генерировать тексты на основе запроса, при этом учитывая стилистику, тематику и контекст. Пользователи могут попросить нейросеть написать рассказ, сценарий, статью в блог и так далее. Также Gemini предоставляет бесплатную возможность генерировать изображения на основе обычных текстовых запросов. Третья из функций генерации — это создание кода: разработчики (или другие специалисты) могут попросить нейросеть создать код, решающий определенную задачу, и получить готовое решение;
  • обработку текста. Gemini способна анализировать тексты, в том числе объемные: она может предлагать исправления, которые касаются грамматики и орфографии, стилистики (например, если текст стоит сделать более формальным) и так далее. Также модель умеет переводить тексты на многие языки, достаточно хорошо сохраняя смысл оригинального текста. Еще одна функция — выделение главных мыслей объемных текстов. То есть, пользователь вместо того, чтобы самостоятельно читать, например, длинное исследование, может попросить Gemini выделить главное и сэкономить время;
  • поиск и распознавание картинок. Если попросить Gemini найти картинку, то она выдаст несколько изображений из поиска Google. Также можно прикрепить собственное изображение и попросить нейросеть рассказать, что на нем изображено. Эта функция не всегда работает точно и не работает вовсе с изображениями людей.

Также запрос в Gemini не обязательно набирать на клавиатуре, можно воспользоваться микрофоном, нажав на соответствующий значок в строке запросов.

Отличия от других моделей ИИ

Gemini выделяется на фоне других моделей ИИ благодаря нескольким особенностям:

  • Gemini умеет решать достаточно широкий спектр задач, связанных с работой над текстом, кодом и изображениями (здесь выделяется функция генерации изображений), в то время как другие нейросети сфокусированы на работе над конкретными задачами, например, как Midjourney;
  • если говорить о сравнении модели с GPT-4 и опираться на информацию, которую предоставила компания Google, то можно сказать, что Gemini лучше справилась с большей частью тестов и задач, среди которых MMLU, BIG-Bench Hard, DROP и другие. Также количество токенов Gemini 1.5 Pro значительно превосходит этот же показатель GPT-4.

На каких смартфонах доступна Gemini

Gemini можно использовать на большинстве смартфонов на операционных системах Android и iOS.

Пользователи Android могут скачать непосредственно приложение Gemini, но для скачивания потребуется поменять регион.

Чтобы воспользоваться Gemini на смартфоне на базе iOS, достаточно скачать приложение Google. Стоит обратить внимание на то, что специального приложения Gemini для iOS не существует.

В обоих приложениях будет доступна версия Gemini 1.0 Pro.

Как пользоваться Gemini в России

Есть несколько вариантов того, как использовать Gemini в России. Рассмотрим каждый из них более подробно:

  • версия Gemini 1.0 Pro доступна бесплатно с мобильных устройств и на официальном сайте модели, нужно только войти в свой Google-аккаунт. Единственный нюанс — пользоваться моделью можно только с иностранным IP-адресом;
  • другие версии сейчас доступны платно, купить подписку можно на официальном сайте, ее стоимость составляет 21.99 евро в месяц, но есть бесплатный период, который длится один месяц; 
  • версиями Gemini 1.5 Pro и Gemini 1.5 Flash можно воспользоваться бесплатно на этом сайте.

Как генерировать картинки в Gemini

Генерация изображений — это одна из ключевых (и что немаловажно — бесплатных) функций Gemini. Однако эта функция начала работать с перебоями еще в феврале 2024 года, в связи с чем пользователям не всегда удавалось генерировать изображения. Сейчас же тоже действуют некоторые ограничения, о которых можно прочитать в справке от компании Google.

В любом случае есть несколько правил, которым стоит следовать, когда нужно сгенерировать картинку в Gemini:

  • запрос нужно сформулировать на английском языке — можно как придумать его самостоятельно, так и воспользоваться переводчиком;
  • запрос должен быть максимально подробным — содержать описание самой картинки и ее деталей, атмосферы, палитры цветов, стиля и так далее. Что конкретно должен содержать запрос можно также спросить у Gemini — она даст советы и задаст наводящие вопросы, которые помогут пользователю в формулировке промта;
  • запросы лучше начинать с фраз «generate an image of…», «create an image of…»;
  • можно просить Gemini улучшить изображение и давать модели обратную связь. 

Сгенерированное изображение можно скачать, нажав на соответствующую иконку.

Примеры использования Gemini

Рассмотрим несколько примеров работы с Gemini, иллюстрирующих ее основные возможности.

Начнем с генерации текста: 

Сгенерированный Gemini 1.0 Pro текст
Сгенерированный Gemini 1.0 Pro текст

Надо отметить, что изначально объем текста от Gemini 1.0 Pro был гораздо больше, чтобы сделать его короче, нужно кликнуть на иконку «Изменить ответ» и выбрать опцию «Короче».

Ответ Gemini 1.5 Pro на тот же запрос:

Сгенерированный Gemini 1.5 Pro текст
Сгенерированный Gemini 1.5 Pro текст

Также Gemini может использоваться для генерации кода — запрос для демонстрации этой способности содержал просьбу реализовать простую функцию на языке JavaScript. Gemini 1.0 Pro выдала такой результат:

Сгенерированный Gemini 1.0 Pro код
Сгенерированный Gemini 1.0 Pro код

Gemini 1.5 Pro выдала такой ответ:

Сгенерированный Gemini 1.5 Pro код
Сгенерированный Gemini 1.5 Pro код

Обе модели также предложили объяснения этого кода и пример использования.

Теперь рассмотрим работу с изображениями — для этого была выбрана картинка, на которой изображено 6 разных животных, при этом по две бабочки и собаки.

Распознанные Gemini 1.0 Pro объекты на картинке
Распознанные Gemini 1.0 Pro объекты на картинке

Gemini 1.0 Pro в результате распознала всех животных и даже породы кошки и двух собак, дала описание каждому животному. А вот Gemini 1.5 Pro выдала хоть и правильный ответ, но гораздо более краткий:

Распознанные Gemini 1.5 Pro объекты на картинке
Распознанные Gemini 1.5 Pro объекты на картинке