loader image

Ajla Karajko

Dvoje studenata napravilo alat koji priča kao pravi čovjek – bez budžeta

Kad pomisliš da je za ozbiljan AI projekat potreban ogroman tim, mnogo para i godine iskustva – pojave se dva studenta iz Koreje i sve to sruše. Tim iz Nari Labs, mali startup koji su pokrenuli Toby Kim i kolega, upravo je objavio Dia, novi open-source model koji pretvara tekst u govor. 

I to ne bilo kakav – već takav da već sad nadmašuje neke od najpoznatijih komercijalnih alata kao što su ElevenLabs i Sesame.

Model ima 1.6 milijardi parametara i podržava stvari koje većina drugih još nema, poput izražavanja emocija, prepoznavanja različitih govornika, pa čak i nevokalne zvukove poput smijeha, kašljanja ili vriska. Ukratko, zvuči kao stvarna osoba, ali još prirodnije i življe.

Ono što je posebno zanimljivo jeste kako su to uspjeli. Inspirisani Google-ovim NotebookLM alatima i zahvaljujući besplatnom pristupu Google TPU Research Cloud-u, uspjeli su bez budžeta obučiti napredan model koji u direktnim testovima pokazuje bolje rezultate nego proizvodi velikih kompanija – i u brzini, i u izražajnosti, i u razumijevanju “neizrečenog”.

Oni ne planiraju stati na tome. 

Nari Labs već razvija aplikaciju za krajnje korisnike – nešto što bi omogućilo običnim ljudima da stvaraju i remiksuju glasovni sadržaj bez komplikacija. 


Ukratko iz svijeta tehnologije:

  • Nissan je najavio partnerstvo s britanskim AI startupom Wayve kako bi integrisao Wayve-ovu tehnologiju autonomne vožnje u svoja vozila.
  • Izvršni direktor Amazona, Andy Jassy, objavio je svoje godišnje pismo dioničarima, u kojem je izjavio da će generativna AI “preoblikovati gotovo svako korisničko iskustvo koje poznajemo.”
  • Hugging Face je preuzeo Pollen Robotics i predstavio Reachy 2, humanoidnog robota vrijednog 70.000 dolara, dizajniranog za istraživanje i primjene inkorporirane AI tehnologije.
  • IFS, švedski pružatelj cloud softverskih rješenja za poduzeća i industrijsku AI tehnologiju, postigao je procjenu vrijednosti od preko 15 milijardi eura (17 milijardi dolara) usljed povećane potražnje.
  • Treća strana testiranja i interne evaluacije otkrile su da novi OpenAI-ovi o3 i o4-mini modeli imaju značajno veći broj halucinacija u poređenju sa starijim modelima.


AI alati koji su trenutno u trendu:

  •  ChatGPT – Nova funkcija memorije koja čuva sve prethodne razgovore.
  •  Grok 3 – xAI-ov vodeći model, sada s novim mogućnostima memorije.
  •  Canva Visual Suite 2.0 – Kreiranje sa svim vrstama dizajna uz pomoć AI tehnologije.

Podijeli objavu:

Preporučeni blogovi