Dwóch studentów i jeden model AI, który zawstydził gigantów
Dwóch studentów i jeden model AI, który zawstydził gigantów
Zajawka: Dwóch studentów z Korei Południowej stworzyło model AI do syntezy mowy, który przewyższa rozwiązania gigantów technologicznych. Bez funduszy, bez doświadczenia – tylko z pasją i determinacją. Poznaj historię powstania Dia i dowiedz się, jak otwartość i dostępność narzędzi AI zmieniają świat technologii.
Wyobraź sobie, że jesteś studentem. Nie masz biura z widokiem na Dolinę Krzemową, nie masz zespołu, a Twoje największe wsparcie techniczne to... tanie rameny i wi-fi w akademiku. A teraz wyobraź sobie, że w takich warunkach budujesz model sztucznej inteligencji, który pokonuje najlepsze komercyjne systemy syntezy mowy na świecie.
Brzmi jak bajka? A jednak właśnie tak powstał Dia – projekt dwóch koreańskich studentów, którzy pokazali, że w epoce open-source naprawdę można „po prostu coś zbudować”.
🛠️ Od zera do… modelu lepszego niż ElevenLabs?
Toby Kim i Jaeyong Sung nie są jeszcze absolwentami MIT. Ale są za to idealnym przykładem tego, że AI staje się… demokratyczne. Bez grantów, bez wsparcia wielkich funduszy, bez nazwiska w Google Scholar z 5-cyfrowym h-indexem – stworzyli model syntezy mowy o nazwie Dia, który:
- działa wielojęzycznie,
- obsługuje wiele głosów (czyli tzw. „multi-speaker”),
- oddaje emocje,
- a nawet potrafi dodać śmiech, westchnięcie czy chrząknięcie (czyli te drobiazgi, które sprawiają, że brzmimy jak ludzie, a nie audiobook z 2007 roku).
🧠 Jak to zrobili?
Tutaj zaczyna się magia dostępności: użyli Google TPU Research Cloud (czyli darmowej mocy obliczeniowej od Google dla badaczy), narzędzi open-source i gigantycznej determinacji. Ich model liczy 1,6 miliarda parametrów, a mimo to można go uruchomić na karcie graficznej z co najmniej 10 GB VRAM. Czyli… na domowym sprzęcie.
Wydali go na GitHubie i Hugging Face – całkowicie otwarty. Możesz go pobrać, trenować, używać, nawet modyfikować. To nie tylko projekt. To manifest możliwości.
📊 Ale czy to działa?
Oj, działa. W testach porównawczych Dia pokonała komercyjne rozwiązania, takie jak ElevenLabs Studio i Sesame CSM-1B. Szczególnie dobrze wypadła pod kątem emocji, spójności wypowiedzi i realistycznego brzmienia.
To trochę tak, jakby dwie osoby w garażu złożyły samochód, który bije Teslę na torze wyścigowym. Oczywiście – to nie jest produkt gotowy do masowej komercjalizacji. Ale pokazuje jedno:
👉 Możesz konkurować z największymi, jeśli masz pasję i dostęp do odpowiednich narzędzi.
💬 Ogarnij AI moment:
Jeśli AI to nowy alfabet, to Toby i Jaeyong napisali nim własny manifest. A my – wszyscy twórcy, marzyciele i wieczorni majsterkowicze z klawiaturą – właśnie dostaliśmy potężną dawkę inspiracji.