Microsoft je predstavio VibeVoice, open-source model za sintezu govora koji donosi ogroman iskorak u kreiranju dugih, višeglasnih audio sadržaja. Sa samo 1.5 milijardi parametara, model je sposoban generisati do 90 minuta razgovora sa čak četiri različita govornika, zadržavajući njihove jedinstvene karakteristike kroz cijeli dijalog.
Jedna od najvećih prednosti je sposobnost stvaranja podcast-kvaliteta audio zapisa, što otvara mogućnost za AI generisane diskusije, panele i intervjue koji zvuče prirodno i ujednačeno. Microsoft je postigao značajna poboljšanja u kompresiji audio podataka (80x), što omogućava da se tehnologija pokreće čak i na consumer uređajima, bez potrebe za ogromnim cloud resursima.
U model je integrisan Qwen2.5, što mu daje sposobnost prirodnog izmjenjivanja replika i kontekstualno svjesnih govora, kakvi se javljaju u dužim razgovorima. Time VibeVoice ide korak dalje od prethodnih TTS sistema koji su najčešće mogli rukovati sa samo jednim ili dva glasa.
Microsoft je takođe ugradio i sigurnosne mehanizme – svaki audio sadrži disclaimer “generated by AI” i skrivene vodene žigove koji omogućavaju provjeru autentičnosti i razlikovanje od stvarnog ljudskog govora.
Dosad su modeli mogli generisati kratke isječke ili dvosmjerne dijaloge, ali mogućnost koordinacije četiri različita glasa u dugotrajnom formatu znači da smo korak bliže svijetu gdje će AI generisati cijele podcaste ili panel diskusije. A činjenica da je riječ o open-source modelu dovoljno malom da radi na kućnim uređajima mogla bi ubrzati masovno usvajanje i otvoriti vrata novim kreativnim aplikacijama.
Ukratko iz svijeta tehnologije:
- Frontier, konzorcij za uklanjanje ugljika koji podržava Google, obavezao se na kupovinu kredita za uklanjanje 115.211 metričkih tona ugljika u vrijednosti od 31,3 miliona dolara od startupa Planetary.
- Google je predstavio nove AI funkcije u Google Translateu s ciljem da pomogne korisnicima u učenju novih jezika, inspirisane aplikacijom Duolingo.
- Naučnici su razvili proces u jednom koraku koji pretvara miješani plastični otpad u benzin na sobnoj temperaturi i normalnom pritisku, postigavši efikasnost veću od 95%.
- The Boring Company Elona Muska navodno je započela testiranje Tesla Full Self-Driving sistema u tunelima Las Vegas Convention Centra koji povezuju obližnje hotele.
- Istraživači sa Univerziteta Queensland postigli su svjetski uspjeh uzgojivši u laboratoriji potpuno funkcionalnu ljudsku kožu.
AI alati koji su trenutno u trendu:
- Co-STORM – Pisanje članaka nalik Wikipediji od nule uz pomoć AI pretrage.
- Hunyuan-A13B – Tencentov novi open-source model za hibridno rezonovanje.
- Qwen VLo -Alibaba-in model sličan GPT-4o za generisanje i uređivanje slika.