OpenAI представила нейросеть Sora для преобразования текста в реалистичные видео
OpenAI представила новую нейросеть Sora для генерации видео. Компания утверждает, что Sora «может создавать реалистичные и фантазийные сцены по текстовым инструкциям». Модель преобразования текста в видео позволяет пользователям создавать на базе текстовых описаний фотореалистичные видео длиной до минуты с разрешением Full HD (1920 × 1080 точек).
Sora — это диффузионная модель, которая способна «создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона». На сайте проекта сказано, что модель умеет понимать подсказки и знает, как ведут себя различные объекты в физическом мире, а также способна «точно интерпретировать реквизит и генерировать убедительных персонажей, выражающих яркие эмоции».
Что важно, так это тот факт, что Sora генерирует целое видео сразу, а не покадрово. Это помогает избежать того, что было проблемой при использовании других подходов — изменения объекта при движении или перемещении камеры.
Модель может генерировать видео на основе неподвижного изображения, заполнять недостающие кадры в существующем видео или расширять его. Среди демонстрационных роликов, созданных с помощью Sora и показанных в блоге OpenAI, – сцена Калифорнии времен золотой лихорадки, видео, снятое как будто изнутри токийского поезда, и другие.
В настоящее время Sora доступна только отдельным тестировщикам, которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ по запросу отдельным художникам, дизайнерам и кинематографистам, чтобы получить обратную связь. Компания отмечает, что существующая модель может неточно имитировать физику сложной сцены и неправильно интерпретировать некоторые случаи причинно-следственных связей.
«Детали», Ю.Л. Фото: Depositphotos.com ∇
Комментариев нет:
Отправить комментарий