Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → sora

OpenAI представила функцию генерации точных изображений в ChatGPT на базе GPT-4o — она доступна бесплатно

OpenAI встроила функцию генерации точных изображений непоcредственно в ChatGPT. Новая функция, именуемая 4o Image Generation, опирается на мультимодальную большую языковую модель GPT-4o. Она понимает контекст, сложные инструкции, взаимодействия объектов и даже генерирует текстовые надписи без артефактов. Доступ для всех откроют сегодня.

 Источник изображения: OpenAI

Источник изображений: OpenAI

ChatGPT и прежде умел генерировать изображения с помощью нейросети Dall-E 3. Однако обновлённая функция работает куда лучше и точнее. Представитель OpenAI Тайя Кристиансон (Taya Christianson) уточнила, что лимиты для бесплатных пользователей останутся такими же, как у DALL-E, то есть три изображения в день. Доступ к DALL-E по-прежнему возможен через пользовательский интерфейс ChatGPT.

Как отметил глава исследований Габриэль Го (Gabriel Goh), использование GPT-4o позволяет ИИ работать с любыми типами данных — текстом, изображениями, аудио и видео. Кроме того, Sora получила ключевое улучшение, заключающееся в корректном соотношении атрибутов и объектов (binding). Го объяснил, что большинство ИИ путаются при обработке 5–8 элементов. Например, ИИ может получить запрос нарисовать синюю звезду и красный треугольник, но создать красную звезду и нечто отличное от треугольника. 4o Image Generation справляется с 15–20 объектами без ошибок.

 Источник изображения: OpenAI

Пользователи также заметят улучшение в отрисовке текста, что позволяет генерировать на изображениях читаемый текст без опечаток. В существующих инструментах для генерации изображений текст часто искажался и достижение качественного рендеринга в этом смысле было серьёзной проблемой, так как даже небольшие ошибки в заголовках или текстовых элементах могут сделать всё изображение полностью непригодным.

 Генерация по запросу «сделайте очень красочную ризографию о том, как приготовить матча» (make a very colorful risograph on how to make matcha)

Генерация по запросу «Cделай очень красочную ризографию о том, как приготовить матча» (make a very colorful risograph on how to make matcha)

Система также использует теперь нестандартный метод генерации. Изображения создаются последовательно, слева направо и сверху вниз, а не целиком, как это происходит в DALL-E. По мнению Го, это объясняет превосходство 4o Image Generation в работе с текстом и сложными сценами.

OpenAI продемонстрировала возможности 4o Image Generation на научных диаграммах, например, эксперимент Ньютона с призмой, комиксах и постерах. Также были показаны практические применения в создании изображений с прозрачным фоном для стикеров, меню ресторанов и логотипов. 4o Image Generation со всеми заданиями справилась успешно, не допустив в тексте никаких ошибок.

Также 4o Image Generation способен редактировать загруженные пользователем изображения по простым запросам, добавляя на них элементы или наоборот убирая.

 Пример добавление элементов на фотографию с помощью GPT-4o

Пример добавление элементов на фотографию с помощью GPT-4o

Однако новая система генерирует изображения дольше, чем предыдущие, но OpenAI считает это оправданным компромиссом. «Хотя у нас определённо есть возможности для улучшения времени отклика, качество этих изображений, возможности, знание о мире действительно компенсируют дополнительные секунды ожидания», — сказали в компании.

 Источник изображения: OpenAI

Отвечая на вопросы о мерах безопасности, упоминая скандальные дипфейки Тейлор Свифт (Taylor Swift), созданные с помощью модели Microsoft, способность Grok от xAI изобразить Камалу Харрис (Kamala Harris) с оружием и удаление водяных знаков в Google Gemini, команда OpenAI подчеркнула наличие надёжных механизмов защиты от злоупотреблений.

Директор по дизайну OpenAI Шеннон Джагер (Jackie Shannon) заявила, что инструмент предотвращает удаление водяных знаков, блокирует генерацию дипфейков, связанных с телом человека и отказывает в запросах на создание материалов с различным родом насилия над детьми (CSAM). Кроме того, Шеннон пояснила, что все сгенерированные изображения будут включать стандартные метаданные C2PA, чтобы отметить изображение как созданное OpenAI.

OpenAI добавит генератор реалистичных видео Sora в ChatGPT

Компания OpenAI намеревается интегрировать основанный на искусственном интеллекте генератор видео Sora в популярный чат-бот ChatGPT. Об этом сообщило руководство самой компании во время сессии в Discord.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Сегодня Sora доступен только через вышедшее в декабре отдельное веб-приложение — в нём можно генерировать видео кинематографического качества продолжительностью до 20 секунд. Однако руководитель проекта Sora в OpenAI Рохан Сахаи (Rohan Sahai) сообщил, что компания планирует расширить присутствие сервиса и возможности генератора видео. Первоначально, когда сервис ещё не был общедоступным, компания продвигала его среди представителей творческих профессий и студий — производителей видеоконтента. Теперь OpenAI прилагает более целенаправленные усилия, чтобы сделать Sora привлекательнее.

Компания намерена объединить Sora с ChatGPT, но сроки реализации пока не называются. В новом формате генератор видео будет менее функциональным по сравнению с отдельным веб-приложением, где можно редактировать и монтировать ролики. Тем не менее, это, вероятно, поспособствует росту и без того значительной популярности ChatGPT, а также станет стимулом к оформлению платных подписок, предполагающих более высокие лимиты на генерацию видео. OpenAI изначально запустила Sora как отдельное приложение, чтобы не усложнять работу с ChatGPT. Со временем разработчики предоставили сообществу возможность просматривать видео, созданные другими пользователями; компания также задумалась о выпуске отдельного мобильного приложения Sora и даже начала подыскивать разработчиков для этого проекта.

Ещё одно направление развития — использование Sora для генерации не только видео, но и статических изображений. Такой проект также находится в разработке. В ChatGPT уже есть генератор изображений DALL-E 3, но предполагается, что в Sora изображения будут более фотореалистичными. Кроме того, ведётся разработка новой версии модели Sora Turbo, которая лежит в основе приложения Sora.

OpenAI подарила неограниченный доступ к ИИ-генератору видео Sora, но не всем и не навсегда

В ходе своего 12-дневного мероприятия OpenAI Shipmas, на котором был также представлен генератор видео на базе искусственного интеллекта Sora, генеральный директор компании Сэм Альтман (Sam Altman) порадовал пользователей ChatGPT Plus, объявив о предоставлении неограниченного доступа к Sora на время праздников.

 Источник изображения: OpenAI, aitoolsclub.com

Источник изображения: OpenAI, aitoolsclub.com

Как пишет AI Tools Club, Альтман объяснил это решение на своей странице в X/Twitter, отметив, что в конце декабря мощности графических процессоров (GPU) OpenAI используются меньше, поскольку люди уходят в отпуск. Это позволяет снизить очередь и предоставить пользователям неограниченные возможности для создания видеороликов. «Наши GPU в конце декабря немного освобождаются, поскольку люди делают перерыв в работе, поэтому мы предоставляем всем пользователям Plus неограниченный доступ к Sora на праздники. Наслаждайтесь творчеством!» — сказал Альтман.

Напомним, ИИ-генератор видео по текстовым запросам Sora был запущен около 10 дней назад и стал ещё одним успешным проектом OpenAI, дополнив линейку таких инструментов, как ChatGPT и DALL-E. Модель доступна на сайте Sora.com для платных пользователей ChatGPT в США и некоторых других стран, и пользуется огромной популярностью.

Позднее представитель OpenAI Рохан Сахаи (Rohan Sahai) поделился ещё одной новостью. Доступ к Sora теперь получат не только обычные пользователи, но и команды, использующие корпоративные аккаунты. Кроме того, Сахаи сообщил, что в генераторе улучшена функция «смешивания» (blend feature), и появилась возможность поделиться сгенерированными видео с друзьями — даже с теми, у кого нет в OpenAI аккаунта.

OpenAI запустила ИИ-генератор видео по текстовым запросам Sora — он косячит так же, как и другие

Компания OpenAI в понедельник запустила Sora — свою революционную модель искусственного интеллекта для генерации видео по текстовым описаниям. С сегодняшнего дня новая модель стала доступна на сайте Sora.com для платных пользователей ChatGPT в США и «большинстве других стран». России в списке нет, как и стран ЕС.

Представленная сегодня версия под названием Sora Turbo может генерировать ролики длиной от 5 до 20 секунд в различных соотношениях сторон и разрешениях от 480p до 1080p. Каждая генерация обойдётся пользователю в определённое количество так называемых «кредитов». Например, видео в 480p стоит от 20 до 150 кредитов, ролик в 720p — от 30 до 540 кредитов, а видео в 1080p — от 100 до 2000 кредитов. Что именно влияет на цену, пока не уточняется.

OpenAI сообщила, что подписчики базового тарифного плана ChatGPT Plus ($20 в месяц) получат 1000 кредитов в месяц. Это позволит сгенерировать до 50 «приоритетных видео» (то есть видео, которые генерируются быстро) в формате 720p и длительностью 5 секунд. В свою очередь, пользователи нового тарифа ChatGPT Pro за $200 в месяц получат 10 000 кредитов, которые смогут потратить на 500 приоритетных видео в формате 1080p и длительностью 20 секунд. Кроме того, более обеспеченные пользователи получат неограниченное количество низкоприоритетных генераций видео. Также пользователи с подпиской Pro смогут выполнять до пяти генераций одновременно и скачивать ролики без водяных знаков. OpenAI отмечает, что видео, созданные с помощью Sora, по умолчанию будут иметь видимые водяные знаки и метаданные C2PA, указывающие на их создание с помощью ИИ.

Sora может создавать несколько вариантов видеоклипов на основе текстовой подсказки или изображения, а также редактировать существующие видео с помощью инструмента Re-mix. Интерфейс Storyboard позволяет пользователям создавать видео на основе последовательности подсказок, инструмент Blend объединяет два видео, сохраняя элементы обоих, а опции Loop и Re-cut дают возможность авторам дополнительно настраивать и редактировать свои видео и сцены.

По словам видеоблогера Маркуса Браунли (Marcus Brownlee), известного как MKBHD, который получил доступ к предварительной версии Sora, система работает далеко не идеально. На создание среднего видеоролика в формате 1080p у него уходило «пара минут». Эта модель страдает от тех же недостатков, что и другие генераторы видео: ей не хватает постоянства объектов. В видеороликах Sora объекты перемещаются нелогично, исчезают и появляются вновь без видимой причины. Ноги — ещё один серьёзный источник проблем, отмечает Браунли. Если человек или животное с ногами долго ходит в ролике, Sora путает передние и задние ноги, а сами ноги могут «меняться местами».

Также сообщается, что в Sora встроен ряд защитных механизмов, запрещающих генерировать видео с изображением людей младше 18 лет, содержащие насилие, «откровенные темы» или нарушающие авторские права третьих лиц. По словам Браунли, Sora также не создаёт видео на основе изображений с общественными деятелями, узнаваемыми персонажами или логотипами. Компания предупреждает, что «неправомерное использование загружаемых медиафайлов» может привести к запрету или приостановке работы аккаунта.

По мнению блогера, новинка может быть полезна для генерации таких вещей, как заставки в определенном стиле, анимации, абстракции и стоп-кадры. Но он не стал бы рекомендовать её для создания фотореалистичных роликов.

OpenAI подчёркивает, что это «ранняя версия Sora», в которой «будут ошибки». «Она не идеальна, но уже на том этапе, когда мы думаем, что она будет действительно полезна для дополнения человеческого творчества, — заявил Уилл Пиблз (Will Peebles), член технического персонала OpenAI и руководитель исследования Sora. — Мы не можем дождаться, когда увидим, что мир создаст с помощью Sora».

Если у вас нет подписки на ChatGPT, вы всё равно сможете просматривать ленту видеороликов, созданных искусственным интеллектом другими пользователями с помощью Sora. В то время как модель станет доступна в США и многих других странах уже сегодня, генеральный директор OpenAI Сэм Альтман (Sam Altman) отметил, что запуск в «большинстве стран Европы и Великобритании» может «занять некоторое время».


window-new
Soft
Hard
Тренды 🔥
Вопрос передачи доли в Anthropic властям США пока не обсуждался 46 мин.
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 7 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 10 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 11 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 11 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 11 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 11 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 12 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 12 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 12 ч.
Новая статья: Снято в Голливуде? Почему Стэнли Кубрик физически не смог бы подделать лунную походку 4 ч.
В Сингапуре обвинили четыре фирмы в контрабанде подсанкционных чипов NVIDIA в Китай 5 ч.
Новая статья: Обзор Midea VCR V15 EVO ULTRA: я просто хорошо убираю любое помещение 6 ч.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 7 ч.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 8 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 10 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 11 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 12 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 12 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 12 ч.