Технологии

GigaChat научился распознавать запросы пользователей по изображениям
Фото: freepik / freepik

7 октября 2024

Автор:

GigaChat научился распознавать запросы пользователей по изображениям

Нейросетевая модель GigaChat Pro обзавелась новой способностью. Теперь она умеет распознавать изображения, используя их как контекст для запросов пользователей. Об этом сообщает «Лента.Ru».

Пользователи могут загрузить иллюстрацию, а GigaChat определит количество людей на фото, их одежду, даст совет по стилю и многое другое. Модель также научилась распознавать печатный и рукописный текст, формулы, графики, таблицы и анализировать содержащуюся в них информацию.

Например, студенты могут сфотографировать учебник или конспект, загрузить изображение в GigaChat и получить краткое содержание текста, ключевую тему и план дальнейшей работы с ним. Функциональность доступна как для обычных пользователей, так и для бизнеса через API.

Кроме того, GigaChat Pro и GigaChat Lite получили увеличенный размер контекста в четыре раза — с 8 тысяч до 32 тысяч токенов. Это позволяет пользователям вводить в запрос больше текста (до 60 страниц A4) и вести более длинные диалоги.

«Мультимодальность — ключевой тренд в развитии генеративного искусственного интеллекта. GigaChat теперь «видит» изображения, открывая новые возможности для наших пользователей и бизнеса. Увеличение размера контекста позволяет нам реализовывать более сложные кейсы с механикой RAG», — отметил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев.

Ранее ITinfo сообщало, что Telegram ищет разработчика для создания собственной видеоплатформы.

Loading...