Dwóch studentów i jeden model AI, który zawstydził gigantów

Dwóch studentów i jeden model AI, który zawstydził gigantów

Zajawka: Dwóch studentów z Korei Południowej stworzyło model AI do syntezy mowy, który przewyższa rozwiązania gigantów technologicznych. Bez funduszy, bez doświadczenia – tylko z pasją i determinacją. Poznaj historię powstania Dia i dowiedz się, jak otwartość i dostępność narzędzi AI zmieniają świat technologii.

Wyobraź sobie, że jesteś studentem. Nie masz biura z widokiem na Dolinę Krzemową, nie masz zespołu, a Twoje największe wsparcie techniczne to... tanie rameny i wi-fi w akademiku. A teraz wyobraź sobie, że w takich warunkach budujesz model sztucznej inteligencji, który pokonuje najlepsze komercyjne systemy syntezy mowy na świecie.

Brzmi jak bajka? A jednak właśnie tak powstał Dia – projekt dwóch koreańskich studentów, którzy pokazali, że w epoce open-source naprawdę można „po prostu coś zbudować”.

🛠️ Od zera do… modelu lepszego niż ElevenLabs?

Toby Kim i Jaeyong Sung nie są jeszcze absolwentami MIT. Ale są za to idealnym przykładem tego, że AI staje się… demokratyczne. Bez grantów, bez wsparcia wielkich funduszy, bez nazwiska w Google Scholar z 5-cyfrowym h-indexem – stworzyli model syntezy mowy o nazwie Dia, który:

  • działa wielojęzycznie,
  • obsługuje wiele głosów (czyli tzw. „multi-speaker”),
  • oddaje emocje,
  • a nawet potrafi dodać śmiech, westchnięcie czy chrząknięcie (czyli te drobiazgi, które sprawiają, że brzmimy jak ludzie, a nie audiobook z 2007 roku).

🧠 Jak to zrobili?

Tutaj zaczyna się magia dostępności: użyli Google TPU Research Cloud (czyli darmowej mocy obliczeniowej od Google dla badaczy), narzędzi open-source i gigantycznej determinacji. Ich model liczy 1,6 miliarda parametrów, a mimo to można go uruchomić na karcie graficznej z co najmniej 10 GB VRAM. Czyli… na domowym sprzęcie.

Wydali go na GitHubie i Hugging Face – całkowicie otwarty. Możesz go pobrać, trenować, używać, nawet modyfikować. To nie tylko projekt. To manifest możliwości.

📊 Ale czy to działa?

Oj, działa. W testach porównawczych Dia pokonała komercyjne rozwiązania, takie jak ElevenLabs Studio i Sesame CSM-1B. Szczególnie dobrze wypadła pod kątem emocji, spójności wypowiedzi i realistycznego brzmienia.

To trochę tak, jakby dwie osoby w garażu złożyły samochód, który bije Teslę na torze wyścigowym. Oczywiście – to nie jest produkt gotowy do masowej komercjalizacji. Ale pokazuje jedno:

👉 Możesz konkurować z największymi, jeśli masz pasję i dostęp do odpowiednich narzędzi.

💬 Ogarnij AI moment:

Jeśli AI to nowy alfabet, to Toby i Jaeyong napisali nim własny manifest. A my – wszyscy twórcy, marzyciele i wieczorni majsterkowicze z klawiaturą – właśnie dostaliśmy potężną dawkę inspiracji.

Udostępnij