Kad pomisliš da je za ozbiljan AI projekat potreban ogroman tim, mnogo para i godine iskustva – pojave se dva studenta iz Koreje i sve to sruše. Tim iz Nari Labs, mali startup koji su pokrenuli Toby Kim i kolega, upravo je objavio Dia, novi open-source model koji pretvara tekst u govor.
I to ne bilo kakav – već takav da već sad nadmašuje neke od najpoznatijih komercijalnih alata kao što su ElevenLabs i Sesame.
Model ima 1.6 milijardi parametara i podržava stvari koje većina drugih još nema, poput izražavanja emocija, prepoznavanja različitih govornika, pa čak i nevokalne zvukove poput smijeha, kašljanja ili vriska. Ukratko, zvuči kao stvarna osoba, ali još prirodnije i življe.
Ono što je posebno zanimljivo jeste kako su to uspjeli. Inspirisani Google-ovim NotebookLM alatima i zahvaljujući besplatnom pristupu Google TPU Research Cloud-u, uspjeli su bez budžeta obučiti napredan model koji u direktnim testovima pokazuje bolje rezultate nego proizvodi velikih kompanija – i u brzini, i u izražajnosti, i u razumijevanju “neizrečenog”.
Oni ne planiraju stati na tome.
Nari Labs već razvija aplikaciju za krajnje korisnike – nešto što bi omogućilo običnim ljudima da stvaraju i remiksuju glasovni sadržaj bez komplikacija.
Ukratko iz svijeta tehnologije:
- Nissan je najavio partnerstvo s britanskim AI startupom Wayve kako bi integrisao Wayve-ovu tehnologiju autonomne vožnje u svoja vozila.
- Izvršni direktor Amazona, Andy Jassy, objavio je svoje godišnje pismo dioničarima, u kojem je izjavio da će generativna AI “preoblikovati gotovo svako korisničko iskustvo koje poznajemo.”
- Hugging Face je preuzeo Pollen Robotics i predstavio Reachy 2, humanoidnog robota vrijednog 70.000 dolara, dizajniranog za istraživanje i primjene inkorporirane AI tehnologije.
- IFS, švedski pružatelj cloud softverskih rješenja za poduzeća i industrijsku AI tehnologiju, postigao je procjenu vrijednosti od preko 15 milijardi eura (17 milijardi dolara) usljed povećane potražnje.
- Treća strana testiranja i interne evaluacije otkrile su da novi OpenAI-ovi o3 i o4-mini modeli imaju značajno veći broj halucinacija u poređenju sa starijim modelima.
AI alati koji su trenutno u trendu:
- ChatGPT – Nova funkcija memorije koja čuva sve prethodne razgovore.
- Grok 3 – xAI-ov vodeći model, sada s novim mogućnostima memorije.
- Canva Visual Suite 2.0 – Kreiranje sa svim vrstama dizajna uz pomoć AI tehnologije.