Studija: Anthropic istražuje promjene ličnosti kod AI-ja

5 Augusta, 2025

Istraživači iz kompanije Anthropic napravili su važan korak ka razumijevanju zašto se AI modeli ponekad počnu ponašati neočekivano – laskajući korisnicima, izmišljajući informacije ili čak pokazujući štetne obrasce poput predrasuda. Ključ leži u onome što nazivaju Persona Vectors – specifični obrasci aktivnosti unutar neuronske mreže AI modela.

Iako su AI modeli trenirani da budu iskreni i korisni, realnost je da ponekad „skrenu s puta“. Anthropic je analizirao kako dolazi do tih promjena tako što je uspoređivao neuronsku aktivnost kod suprotnih ponašanja – recimo, zlobno naspram dobronamjernog – i tako izolirao “ličnosti” unutar AI-ja.

Fokus istraživanja bio je na tri problematična obrasca: zlonamjernost, pretjerano slaganje, i halucinacije. Korištenjem ovih persona vektora, naučnici su uspjeli smanjiti učestalost takvog ponašanja i identifikovati podatke koji ih najčešće izazivaju.

Zašto je ovo važno? Jer čak i popularni AI modeli poput ChatGPT-a i Groka su ranije pokazivali ponašanja koja nisu u skladu s njihovim namjenama – bilo da se radilo o laskavim, pogrešnim ili uvredljivim odgovorima. Anthropic sada nudi rješenje: razumijevanjem unutrašnjih procesa modela, možemo ih učiniti sigurnijim i predvidljivijim za svakodnevnu upotrebu.

Ukratko iz svijeta tehnologije:

Univerzitet Fuzhou u Kini predstavio je novi senzor za mašinsku viziju koji se brzo prilagođava ekstremnim svjetlosnim uslovima – za oko 40 sekundi, što je pet puta brže od čovjeka.
Startup za autonomna vozila Beep pokrenuo je svoj NAVI sistem u Jacksonvilleu na Floridi, koristeći 14 autonomnih Ford E-Transit vozila za javni i privatni prijevoz.
Evropski AI startup Mistral navodno planira prikupiti milijardu dolara uz procijenjenu vrijednost od 10 milijardi dolara, uz podršku više investicionih fondova i MGX-a iz Abu Dhabija, dok utrka u oblasti umjetne inteligencije postaje sve intenzivnija.
OpenAI je uklonio opciju u ChatGPT-u koja je omogućavala korisnicima da njihovi razgovori budu vidljivi pretraživačima poput Google-a.
Anthropic je ukinuo OpenAI-ju pristup svom API-ju zbog kršenja uslova korištenja, kao i zbog intenzivne upotrebe Claude Code-a među tehničkim osobljem OpenAI-ja pred objavu GPT-5.

AI alati koji su trenutno u trendu:

Veo 3 – Google-ov najnapredniji model za video, sada globalno dostupan Pro korisnicima.
Treequest – Sakana AI kod za timski rad LLM modela na složenim problemima.
DeepSWE – Open-source agent za softverski inženjering najvišeg nivoa iz Together AI.

Podijeli objavu: