Резюме создано Smart Answers AI
В итоге:
- PCWorld сообщает, что генератор изображений Google Nano Banana 2 AI обеспечивает значительные улучшения: разрешение 2K масштабируется до 4K, а также значительно улучшены возможности рендеринга текста.
- Усовершенствованная модель успешно генерирует сложные изображения с точным встроенным текстом, диаграммами и подписями, устраняя проблемы с бессмысленным текстом, присущие предыдущим версиям.
- Nano Banana 2, доступный через приложение Gemini, Google Search и AI Studio, представляет собой большой шаг вперед в качестве изображений, генерируемых искусственным интеллектом, и следовании инструкциям.
Рендеринг точного текста долгое время был камнем преткновения даже для самых продвинутых генераторов изображений с использованием искусственного интеллекта, но это одна из самых сильных сторон только что обновленного движка Google Nano Banana 2.
Доступный теперь в приложении Gemini (вы также найдете его в Google Search, AI Studio и других продуктах Google), Nano Banana 2 может похвастаться рядом новых функций, в том числе разрешением до 2K, которое можно масштабировать до 4K, «улучшенными» инструкциями, которые помогают модели лучше следовать вашим подсказкам, и возможностью опираться на «реальные» знания Gemini, что позволяет ей получать информацию в реальном времени с помощью веб-поиска при рендеринге изображений.
Неплохо, но еще более впечатляет точность воспроизведения текста в Nano Banana 2. Я попросил Nano Banana 2 создавать изображения с рекламными щитами, вывесками, газетами и другими объектами со встроенным текстом, и он работал как чемпион, в значительной степени избегая тарабарщины, которую обычно создавали более ранние генераторы изображений AI при попытке рендеринга букв и слов.
Например, я предложил Nano Banana 2 отобразить изображение робота, курящего сигарету на Таймс-сквер, с неоновой надписью «Nano Banana 2 на Бродвее» на заднем плане. Никаких проблем, изображение (вверху) было визуализировано примерно за 10 секунд.
Затем я попросил Nano Banana 2 создать фотографию женщины, читающей газету в уголке для завтрака, с заголовком газеты: «Nano Banana 2 дебютирует». Но для этого теста я повысил ставку: попросил движок написать подзаголовок и саму статью, а также указал, что история должна быть конкретно о Nano Banana 2.
Что ж, модель правильно поняла подзаголовок, но, что еще лучше, она написала статью — во всяком случае, до определенного момента. Текст статьи немного волнистый, но его почти можно прочитать.
Затем я еще немного подтолкнул Nano Banana 2, попросив увеличить масштаб статьи и улучшить текст.
Здесь рендеринг текста немного нарушился: «Google представила свое последнее достижение в области генеративного искусственного интеллекта, «Nano Banana 2», — говорится в статье, — обещая большой скачок (слово «скачок» частично скрыто пальцем) в точности генерации изображений». Неплохо, но по мере того, как вы продолжаете читать, точность текста начинает ухудшаться.
Наконец, я попробовал попросить Nano Banana 2 нарисовать диаграмму… ну, самого себя. «Представьте диаграмму архитектуры nano Banana 2 в рамках большей структуры Gemini, дополненную текстовыми подписями», — предложил я, и примерно через 15 секунд я получил это:
Присмотревшись к диаграмме, я вообще не увидел никакой текстовой тарабарщины, а диаграмма и подписи, казалось, имели смысл, или, по крайней мере, моему неподготовленному глазу.
Подключив диаграмму к приложению Gemini, «мыслящая» версия Gemini заверила меня, что это «удивительно точная архитектурная карта» всей структуры Gemini, точно отображающая, как новая модель может обрабатывать до пяти последовательных символов в рабочем процессе изображения. Он также правильно ссылается на совершенно новый GemPix 2 Diffusion Renderer, компонент Nano Banana 2, который берет исходные изображения движка 2K и масштабирует их до 4K.
В целом, это очень впечатляет, хотя Nano Banana 2 также вызывает вопрос, когда OpenAI выпустит продолжение прошлогоднего GPT Image 1.5. Это может произойти в любой день, если не сегодня.


