OpenAI представила новую модель генерации изображений Images 2.0, интегрированную в ChatGPT и доступную через API. Разработка стала первой визуальной системой компании с поддержкой так называемых «рассуждающих» режимов, что значительно расширяет возможности ее применения – от креативных задач до более сложных сценариев с анализом контекста.
Отдельное внимание уделено работе с текстом: Images 2.0 заметно лучше справляется с нелатинскими алфавитами и корректно воспроизводит надписи на разных языках. Кроме того, нейросеть демонстрирует высокий уровень детализации и реалистичности – в том числе благодаря добавлению мелких визуальных «несовершенств» и точной передаче различных художественных стилей, от кинематографических сцен до пиксельной графики.
В компании отмечают, что модель пока не лишена ограничений – например, она может испытывать сложности с генерацией пошаговых инструкций или сложных геометрических объектов. При этом среди ключевых преимуществ называют качественную работу с длинными текстами и инфографикой, а также возможность создавать интерфейсы приложений и веб-страниц. На данный момент доступ к Images 2.0 открыт ограниченному числу пользователей, дата полноценного релиза пока не объявлена.
Фото: unsplash.ru

