Следующий волшебный трюк Google — заставить искусственный интеллект звучать в ваших генеративных видео

Следующий волшебный трюк Google — заставить искусственный интеллект звучать в ваших генеративных видео

Следующий волшебный трюк Google — заставить искусственный интеллект звучать в ваших генеративных видео

Как опытный геймер с глубоким пониманием видеопроизводства и технологий искусственного интеллекта, я искренне в восторге от новейшего инструмента искусственного интеллекта от Google DeepMind — V2A. Возможность создания убедительного звука, соответствующего хронометражу видео, меняет правила игры для таких создателей контента, как я, которые всегда ищут высококачественные видеоролики или звуковые эффекты.


Спасибо за исправление, вот предложение для перефразирования: благодаря новейшей инновации Google DeepMind в области искусственного интеллекта производителям контента не нужно беспокоиться о том, что снова не хватит отснятого материала.

Лаборатория искусственного интеллекта Google продемонстрировала свою технологию преобразования видео в аудио (V2A), которая использует искусственный интеллект для генерации звука, синхронизируемого с видеоконтентом. Функция V2A аналогична генеративному видео: он воспроизводит аутентичные звуки, такие как последовательные шаги или тщательный барабанный бой, которые идеально совпадают с синхронизацией видео во время первоначальных демонстраций.

Как страстный приверженец последних достижений в области генеративных видеотехнологий, я могу сказать вам, что существует заметный разрыв между визуальными и слуховыми компонентами в текущих предложениях, таких как Sora от OpenAI, Dream Machine от Luma AI и Veo от Google. Эти инновационные инструменты создают потрясающие визуальные эффекты, но бросается в глаза отсутствие интеграции звука. Преодоление этого разрыва может привести к более захватывающему и увлекательному опыту для пользователей.

Разблокировка звука, созданного искусственным интеллектом

Новая технология V2A в настоящее время находится на стадии разработки, однако первые демонстрации, представленные Google DeepMind, вызвали значительный ажиотаж из-за их потенциала. Как показано в демонстрациях, V2A позволяет добавлять к медиаконтенту различные элементы, такие как запоминающаяся фоновая музыка и аутентичные звуковые эффекты. Кроме того, Google DeepMind обнаружил, что V2A потенциально может создавать саундтреки для старых образцов видео, включая архивные кадры и немые фильмы.

Впечатляет то, что Google DeepMind объявила, что их система преобразования голоса в аудио (V2A) способна создавать бесконечное множество саундтреков на основе любого видеовхода. Это означает, что у вас есть огромный выбор аудиосэмплов, с которыми вы можете экспериментировать, пока не найдете идеальный вариант для вашего видео. Кроме того, вы можете уточнить свой первоначальный запрос, сообщив V2A, если сгенерированный результат слишком сильно или недостаточно отклоняется от того, что вы имели в виду.

Я ярый сторонник технологии преобразования текста в речь (V2A) Google DeepMind, но есть некоторые проблемы, о которых следует знать. Этот метод работает путем обработки необработанных пикселей исходного видео. Следовательно, если ваше видео содержит артефакты или искажения, вы можете столкнуться с проблемами с качеством звука. Кроме того, V2A испытывает трудности с синхронизацией предоставленной расшифровки с кем-то, говорящим на видео, что приводит к несоответствию между аудио- и видеоконтентом и в конечном итоге разрушает иллюзию клипа, созданного ИИ. (См. пример ниже, где видео и звук не совпадают.)

Еще не готов к выпуску

Хотя эти демонстрации впечатляют, Google DeepMind ясно дал понять, что они не совсем готовы к публичному представлению этой технологии. До официального запуска они планируют провести тщательную оценку безопасности и испытания, не раскрывая специфики процедур тестирования.

Учитывая быстрое развитие технологий генеративного искусственного интеллекта, Google DeepMind будет разумно проявлять осторожность, прежде чем представлять новые мощные инструменты, такие как V2A. Существует риск того, что злоумышленники могут воспользоваться такими технологиями, что приведет к потенциальному неправильному использованию и нежелательным последствиям. Тем не менее, V2A также имеет огромные перспективы как новаторский инструмент для создателей контента, предлагающий новые возможности для инноваций и творчества.

Смотрите также

2024-06-19 12:26