ИИ-видео vs реальность: сможете ли вы отличить?
Поработав с генеративным ИИ, я решил, что имею представление о том, чего ожидать от Veo 3 — передового видеогенератора на основе ИИ от Google. Но когда несколько недель назад я наконец накопил 20 долларов (около 2 тыс. руб.) на подписку Google AI Pro, я с удивлением обнаружил, что он превзошёл даже мои самые оптимистичные ожидания. В отличие от ранних генераторов изображений на основе ИИ, которые создавали очевидные деформации, такие как лишние пальцы или абсурдная архитектура, Veo 3 от Google может генерировать видео, которые поразительно похожи на их реальные аналоги.
На самом деле некоторые видео, созданные Veo, выглядят в социальных сетях настолько убедительно, что мне пришлось дважды проверить, не смотрю ли я на контент, сгенерированный искусственным интеллектом, или на стоковое видео. Естественно, это привело меня к вопросу: насколько хорош Veo 3 на самом деле и сможет ли обычный человек понять, что смотрит на видео, созданное искусственным интеллектом? Чтобы это выяснить, я составил небольшой тест, в котором шесть видео, созданных Veo, сравниваются с реальными видео. Можете ли вы заметить разницу?
Видео, созданные искусственным интеллектом с помощью Veo 3: пугающе хороши
Способность Veo 3 генерировать чрезвычайно убедительные видеоролики впечатляет сама по себе, но программа идёт ещё дальше: она может генерировать синхронизированную речь или звуковые эффекты. Это означает, что для неподготовленного глаза результат будет практически неотличим от настоящего.
Конечно, если присмотреться, можно заметить характерные признаки, указывающие на то, что синтетическое видео создано искусственным интеллектом, но можно ожидать, что эти незначительные недостатки исчезнут раньше или позже. С момента презентации Veo 3 на конференции I/O компания Google уже выпустила множество исправлений для Veo 3, в том числе недавнее, которое предотвращает появление текста, похожего на субтитры.
Чтобы создать видео с помощью Veo 3, вам понадобится подписка Google AI Pro или Ultra. Это обойдётся вам минимум в 20 долларов (около 2 тыс. руб.) в месяц, не говоря уже о более высоком тарифе, который стоит целых 250 долларов (около 20 тыс. руб.) в месяц. И даже в этом случае вы будете получать ограниченное количество кредитов на генерацию в месяц.
Google Veo 3 стоит дорого и имеет крайне ограниченные возможности, но он всё равно очень функционален.
На этом список ограничений Veo 3 не заканчивается. На данный момент вы можете создавать только очень короткие видеоролики — не более восьми секунд каждый. Тем не менее Google Flow, экспериментальный инструмент для создания фильмов с помощью искусственного интеллекта, позволяет объединять несколько клипов, созданных с помощью Veo, в одно длинное видео. Помимо продолжительности, ещё одним серьёзным ограничением является то, что на данный момент с помощью Veo 3 можно создавать видео только в разрешении 720p.
Veo 3 обходится Google в круглую сумму с точки зрения обработки данных. И хотя мы не знаем точную внутреннюю стоимость для Google, нам известно, сколько разработчики платят за использование Veo 3 через API. Каждая секунда видео со звуком стоит 0,75 доллара (около 60,24 руб.) , а беззвучные клипы — 0,50 доллара (около 40 руб.) за секунду. Это значит, что 8-секундное видео обходится разработчикам в 6 долларов за генерацию. Умножьте это на количество роликов, и станет понятно, почему Google ограничивает количество поколений, доступных по подписке Pro за 20 долларов (около 2 тыс. руб.). Стоимость этой технологии, скорее всего, далеко не тривиальна.
Итак, стоит ли Veo 3 своих баснословных денег? Это возвращает нас к первоначальному вопросу: можете ли вы на самом деле отличить видео из реального мира от видео, созданного искусственным интеллектом? Ниже я привёл шесть коротких видеороликов. Посмотрим, сможете ли вы определить, где какое.
Видео 1: Зерноуборочный комбайн
combine-harvester-stock-video combine-harvester-veo-3Давайте начнём с простого. Эту версию довольно легко распознать, если присмотреться. Созданная искусственным интеллектом версия не воспроизводит многие детали реального мира, которые можно было бы ожидать увидеть в настоящей фермерской сцене. Небо, сельскохозяйственная техника и мелкие элементы фона выглядят слишком чистыми и однородными. Но, честно говоря, я дал Veo 3 довольно короткую и неинформативную подсказку.
Учитывая это, Veo 3 действительно отлично справился с задачей. Если бы вы не сравнивали видео с реальными кадрами, его можно было бы легко принять за оригинал. Что ещё более впечатляет, так это то, что я попросил использовать определённую цветовую схему для техники и даже упомянул название бренда, и Veo 3 справился с обеими задачами. Это показывает, насколько хорошо эта модель улавливает контекст и направление, даже если она пока не справляется с мелкими деталями.
Видео 2: Белка ест орех
squirrel-eating-nut-stock-video squirrel-eating-nut-veo-3Ещё один относительно простой пример. Хотя версия Veo 3 впечатляет своей реалистичностью, особенно благодаря едва заметным движениям тела и удивительно правдоподобному фоновому звуку, она проигрывает, когда её сравнивают с реальными архивными кадрами. Белка, созданная искусственным интеллектом, выглядит слишком чистой, а фон — слишком тёмным, хотя, возможно, дело в моих подсказках. Но что самое впечатляющее? Я попросил Veo 3 сфокусироваться на шерсти белки с малой глубиной резкости, и он справился.
Я думаю, что его выдаёт отсутствие той непредсказуемой естественности, которую мы видим у настоящих животных. В стоковой записи белка возится с орехом, откусывает больше, чем может прожевать (в буквальном смысле), и ведёт себя немного более характерно. Тем не менее, если бы вы увидели запись с искусственным интеллектом отдельно, вы бы, скорее всего, не усомнились в её подлинности.
Видео 3: Оживлённый ночной рынок в Таиланде
thai-market-stock-video thai-market-veo-3Veo 3 демонстрирует свои сильные стороны, передавая общую атмосферу — бурлящую энергию и ощущение движения. Если вы никогда не были в Таиланде, оба видео могут показаться вам одинаково убедительными.
Но присмотритесь внимательнее, и вы заметите недостатки. Прилавки слишком однообразные, и в них нет того визуального беспорядка, который можно увидеть на настоящем ночном рынке. Продавцы, похоже, торгуют случайными, неподходящими друг к другу товарами, которые не сочетаются между собой. А если вы посмотрите на движения рук продавцов, то увидите, что они довольно неестественные. Это классический признак генеративного ИИ, и видеогенератор Google не застрахован от этой проблемы.
Тем не менее эту сцену сложно реализовать, и, учитывая её сложность, попытка Veo 3 выглядит вполне достойно.
Видео 4: Турист и клубящийся туман
Эта сцена, пожалуй, самая впечатляющая из всех. Без нагромождения городских элементов или сложных взаимодействий персонажей Veo 3 может по-настоящему заиграть новыми красками. Даже с драматическим освещением, живописными пейзажами и атмосферными эффектами, такими как туман, игра не вызывает затруднений. Кроме того, реальный клип выглядит потрясающе, почти как видеоигра.
Из-за этого угадать действительно сложно. Нужна подсказка? Присмотритесь к левой руке туриста, и вы заметите едва заметную ошибку в рендеринге, которая разрушает иллюзию.
Видео 5: Стадо коз
Я не знаю, смог бы я их различить, но, зная, что один из них создан искусственным интеллектом, я могу заметить небольшие странности. Например, земля в ролике, созданном ИИ, кажется слишком ровной. Морды и тела козлов тоже на удивление гладкие, в то время как у настоящих животных есть немного грязи. Тем не менее, это не какой-то один вопиющий недостаток — это скорее интуитивное ощущение.
Насколько точно вы можете определить, что видео создано искусственным интеллектом?
Некоторые из приведённых выше роликов было легче распознать, чем другие, но если вы ломали голову даже над очевидными фейками, то вы не одиноки. Когда в видеороликах, созданных искусственным интеллектом, освещение, ракурсы и объекты съёмки подобраны правильно, распознать подделку может быть на удивление сложно. Я не уверен, что смог бы выявить многие фейки без прямого сравнения, хотя я просмотрел сотни или тысячи изображений, созданных искусственным интеллектом.
По мере удешевления технологии можно ожидать, что видео, созданные с помощью Veo 3, станут более распространёнными. В настоящее время Google добавляет небольшой водяной знак в правый нижний угол всех видео, созданных с помощью искусственного интеллекта, но если вы не заметили его выше, то это потому, что я вырезал его из каждого ролика. На это уходило всего несколько минут на каждое видео, а значит, нам нужно найти новый и более эффективный способ борьбы с надвигающимся потоком фейковых видео в интернете. Я не знаю, в чём заключается решение, но надеюсь, что команда Google по этике в сфере ИИ его найдёт.
От кухни до соцсетей: как Google Veo 3 создаёт идеальные ASMR-ролики
Сообщение ИИ-видео vs реальность: сможете ли вы отличить? появились сначала на DGL.RU - Цифровой мир: новости, тесты, обзоры телефонов, планшетов, ноутбуков.