Istraživači iz kompanije Anthropic napravili su važan korak ka razumijevanju zašto se AI modeli ponekad počnu ponašati neočekivano – laskajući korisnicima, izmišljajući informacije ili čak pokazujući štetne obrasce poput predrasuda. Ključ leži u onome što nazivaju Persona Vectors – specifični obrasci aktivnosti unutar neuronske mreže AI modela.
Iako su AI modeli trenirani da budu iskreni i korisni, realnost je da ponekad „skrenu s puta“. Anthropic je analizirao kako dolazi do tih promjena tako što je uspoređivao neuronsku aktivnost kod suprotnih ponašanja – recimo, zlobno naspram dobronamjernog – i tako izolirao “ličnosti” unutar AI-ja.
Fokus istraživanja bio je na tri problematična obrasca: zlonamjernost, pretjerano slaganje, i halucinacije. Korištenjem ovih persona vektora, naučnici su uspjeli smanjiti učestalost takvog ponašanja i identifikovati podatke koji ih najčešće izazivaju.
Zašto je ovo važno? Jer čak i popularni AI modeli poput ChatGPT-a i Groka su ranije pokazivali ponašanja koja nisu u skladu s njihovim namjenama – bilo da se radilo o laskavim, pogrešnim ili uvredljivim odgovorima. Anthropic sada nudi rješenje: razumijevanjem unutrašnjih procesa modela, možemo ih učiniti sigurnijim i predvidljivijim za svakodnevnu upotrebu.
Ukratko iz svijeta tehnologije:
- Univerzitet Fuzhou u Kini predstavio je novi senzor za mašinsku viziju koji se brzo prilagođava ekstremnim svjetlosnim uslovima – za oko 40 sekundi, što je pet puta brže od čovjeka.
- Startup za autonomna vozila Beep pokrenuo je svoj NAVI sistem u Jacksonvilleu na Floridi, koristeći 14 autonomnih Ford E-Transit vozila za javni i privatni prijevoz.
- Evropski AI startup Mistral navodno planira prikupiti milijardu dolara uz procijenjenu vrijednost od 10 milijardi dolara, uz podršku više investicionih fondova i MGX-a iz Abu Dhabija, dok utrka u oblasti umjetne inteligencije postaje sve intenzivnija.
- OpenAI je uklonio opciju u ChatGPT-u koja je omogućavala korisnicima da njihovi razgovori budu vidljivi pretraživačima poput Google-a.
- Anthropic je ukinuo OpenAI-ju pristup svom API-ju zbog kršenja uslova korištenja, kao i zbog intenzivne upotrebe Claude Code-a među tehničkim osobljem OpenAI-ja pred objavu GPT-5.
AI alati koji su trenutno u trendu: