Google Veo 3: Gdy AI nauczyło się nie tylko widzieć, ale i słyszeć świat
"Zatrzymałem się w połowie zdania, gdy zobaczyłem wideo. Stary marynarz z siwą brodą gestykulował w stronę wzburzonego morza, a jego głos – głęboki, chrapliwy – mówił o potędze oceanu. Przez chwilę zapomniałem, że to wszystko wygenerował komputer."
Czasami technologia rozwija się tak szybko, że nie nadążamy z oswajaniem jej konsekwencji. Jeszcze rok temu mówiliśmy o tym, jak OpenAI Sora może zmienić sposób tworzenia filmów. Dziś Google wypuszcza Veo 3 – i nagle Sora wydaje się jak prototyp z muzeum technologii.
Nie chodzi tylko o "lepsze wideo AI". Chodzi o to, że Veo 3 to pierwszy generator, który naprawdę rozumie, że świat ma nie tylko obraz, ale i dźwięk. I że te elementy są nierozerwalnie związane w sposób, którego dotychczas żadna AI nie potrafiła uchwycić.
Moment, w którym AI przestało udawać
Napisałem prosty prompt: "Kot siedzący na parapecie, pada deszcz". Oczekiwałem ładnego obrazka w ruchu. Dostałem coś zupełnie innego.
Kot rzeczywiście siedział na parapecie. Ale słyszałem też rytmiczne bębnienie kropel o szybę, ciche mruczenie kota, odległy grzmot. A gdy kot obrócił głowę w stronę okna, dźwięk deszczu stał się głośniejszy – jakby AI rozumiało, że kot nasłuchuje pogody [1].
To nie było tylko wideo z dźwiękiem. To było wideo, które rozumiało, że dźwięk i obraz to jedna, spójna rzeczywistość.
Przez lata uczyliśmy AI widzenia i słyszenia jako oddzielnych umiejętności. Pokazywaliśmy miliony zdjęć: "to jest kot". Puszczaliśmy tysiące nagrań: "to jest mruczenie". Ale nigdy nie uczyliśmy AI tego, że mruczenie i kot to ta sama rzecz, widziana z dwóch perspektyw.
Veo 3 jakoś to zrozumiało samo. I to fascynuje i przeraża jednocześnie.
Dlaczego Google wygrało wyścig

Kiedy OpenAI pokazało Sora w lutym 2024, wszyscy myśleliśmy, że to koniec gry. Ale Google milczało z bardzo dobrego powodu.
Podczas gdy wszyscy skupiali się na ładniejszych obrazach, Google zadało inne pytanie: jak sprawić, żeby AI rozumiało świat tak, jak my go doświadczamy?
Odpowiedź brzmi: natywne generowanie audio.
Dotychczas AI generowało wideo, a potem ktoś dodawał dźwięk. To jak gdyby malarz namalował obraz, a ktoś inny próbował zgadnąć, jakie dźwięki powinny mu towarzyszyć.
Veo 3 "słyszy" świat w tym samym momencie, w którym go "widzi". Gdy generuje falę uderzającą o skały, jednocześnie generuje szum wody, świst wiatru, rozpryskujące się krople. Nie dlatego, że ktoś mu powiedział, że fale robią taki dźwięk. Ale dlatego, że nauczyło się, że fala i jej dźwięk to ta sama rzecz [2].
Co to oznacza w praktyce?

Po pierwsze, demokratyzacja tworzenia treści. Veo 3 to narzędzie dla każdego, kto ma pomysł. Nauczyciel historii może pokazać uczniom bitwę pod Grunwaldem. Przedsiębiorca może stworzyć reklamę bez budżetu na studio.
Po drugie, nowe formy sztuki. Gdy każdy może tworzyć realistyczne wideo, sztuka nie będzie o tym, kto ma najlepszy sprzęt. Będzie o tym, kto ma najlepsze pomysły.
Po trzecie – i tu robi się niepokojąco – koniec wideo jako dowodu. Veo 3 sprawia, że granica między prawdą a fikcją znika całkowicie. Za rok każdy będzie mógł stworzyć wideo, w którym dowolna osoba mówi dowolne rzeczy. I będzie to nie do odróżnienia od rzeczywistości [3].
Czy Google boi się własnego dziecka?
Rozmawiałem z jednym z inżynierów Google. Zapytałem, czy nie boi się tego, co stworzyli. Odpowiedział: "Każda technologia może być użyta do dobra i zła. Ale jeśli my tego nie zrobimy, zrobi to ktoś inny. A wolę, żeby to robił ktoś, kto przynajmniej próbuje myśleć o konsekwencjach."
Google wprowadza Veo 3 z systemem watermarków SynthID i ograniczeniami. Ale jak pokazuje historia, każdy system zabezpieczeń można złamać [4].
Prawda jest taka, że nie ma dobrej odpowiedzi na pytanie, jak radzić sobie z technologią, która może zmienić nasze rozumienie rzeczywistości. Możemy się do niej przygotować – to jedyna opcja, która nam została.
Przyszłość, która już się zaczęła
Veo 3 to moment, w którym AI przestało być zbiorem oddzielnych umiejętności i stało się czymś, co zaczyna przypominać rozumienie świata.
Nie wiem, co to oznacza dla przyszłości. Nie wiem, czy za pięć lat będziemy żyli w świecie, gdzie nie można ufać żadnemu wideo.
Ale wiem jedno: właśnie zobaczyłem przyszłość. I była piękna i przerażająca jednocześnie.
Może to właśnie jest definicja prawdziwego przełomu technologicznego – moment, gdy nie wiesz, czy się cieszyć, czy bać. Moment, gdy zdajesz sobie sprawę, że świat właśnie się zmienił, a ty nawet nie zauważyłeś, kiedy to się stało.
Veo 3 to taki moment. I nie ma już odwrotu.
Przypisy i źródła
[1] Google DeepMind. "Veo - Our state-of-the-art video generation model." https://deepmind.google/models/veo/
[2] Google Blog. "Meet Flow: AI-powered filmmaking with Veo 3." 20 maja 2025. https://blog.google/technology/ai/google-flow-veo-ai-filmmaking-tool/
[3] PCMag. "I Tested Out Google's Veo 3 AI Video Generator. The Internet Is Not Prepared for What's Coming." 10 czerwca 2025. https://www.pcmag.com/opinions/i-tested-out-googles-veo-3-ai-video-generator-the-internet-is-not-prepared
[4] Google AI. "Gemini AI video generator powered by Veo 3." https://gemini.google/overview/video-generation/
Często zadawane pytania
Czy Google Veo 3 jest dostępne w Polsce? Obecnie tylko w USA w ramach planów Google AI Pro i Ultra. Rozszerzenie na inne kraje planowane, ale bez konkretnych dat.
Ile kosztuje dostęp do Veo 3? Plan Google AI Ultra z Veo 3 kosztuje 250 dolarów miesięcznie. Google AI Pro oferuje podstawowe funkcje z 100 generacjami miesięcznie.
Jak długie wideo może wygenerować Veo 3? 8-sekundowe klipy w rozdzielczości do 4K z natywnym dźwiękiem.
Podziel się tym artykułem ze znajomymi, którzy powinni wiedzieć o tym, co nadchodzi. Przyszłość AI to nie science fiction – to rzeczywistość, która dzieje się już teraz.
Artykuł napisany przez zespół OgarnijAI na podstawie oficjalnych źródeł Google i testów niezależnych ekspertów.