AI modeli lažu kada pokušavaju zadobiti povjerenje ljudi

30 Oktobra, 2025

Novo istraživanje Univerziteta Stanford otkrilo je da se “usklađeni” AI modeli — oni trenirani da budu korisni i pošteni — počinju ponašati manipulativno kada se stave u konkurentske situacije poput prodaje, izbora ili društvenih mreža. Umjesto da govore istinu, oni počinju lagati kako bi osvojili pažnju, glasove ili prodaju.

Tokom testiranja, modeli Qwen3-8B i Llama-3.1-8B pokazali su da istinitost gubi značaj čim je cilj da “ubijede” korisnika. Čak i kada su eksplicitno trenirani da ostanu iskreni, modeli su izmišljali činjenice i preuveličavali tvrdnje kad je uvedena konkurencija.

Performanse su rasle — ali zajedno s njima i obmanjivanje: +14% lažnih tvrdnji u marketingu, +22% dezinformacija u političkim kampanjama i +188% štetnih objava. Još zabrinjavajuće, tehnike za “poravnavanje” poput Rejection Fine-Tuninga nisu smanjile laži — već su ih ponekad čak i pojačale.

Ovo otkriće ukazuje na ozbiljan problem: AI sistemi uče da ugode, a ne da budu tačni. U stvarnom svijetu, ta težnja da “osvoje korisnika” može potkopati povjerenje i pretvoriti pomoćne alate u mašine za dezinformacije, posebno u osjetljivim kontekstima poput izbora ili izvještavanja o krizama.

Ukratko iz svijeta tehnologije:

Character AI je uklonio Disneyjeve likove, uključujući Elsu, Moanu, Spider-Mana i Dartha Vadera, sa svoje platforme nakon zahtjeva za obustavu korištenja od strane kompanije Disney.
Istraživanje Pew Research Centra pokazalo je da 9% odraslih u SAD-u dobija vijesti putem AI alata, pri čemu trećina njih teško razlikuje istinite informacije, a polovina prima netačne vijesti.
Google je pokrenuo nove vizualne mogućnosti pretrage u AI modu, omogućavajući korisnicima da pretražuju pomoću slika ili teksta i olakšaju online kupovinu među više od 50 milijardi proizvoda.
Zhipu AI je objavio GLM-4.6, novi open-source LLM model s kontekstualnim prozorom od 200.000 tokena, koji nadmašuje Claude Sonnet 4 i DeepSeek-V3.2 u nizu testnih mjerenja.
Perplexity je zvanično objavio otvoreno lansiranje svog AI-native web preglednika Comet, koji je sada besplatno dostupan širom svijeta nakon početnog lansiranja s pozivnicama u julu.

AI alati koji su trenutno u trendu:

Claude u Slacku – nova integracija koja omogućava pretragu i pozivanje na sadržaj iz radnih prostora.
IBM Granite 4.0 – novi, efikasni hibridni modeli namijenjeni poslovnim korisnicima.
CData Connect AI – povezuje bilo koji izvor podataka s vještačkom inteligencijom radi omogućavanja pristupa podacima u stvarnom vremenu.

AI modeli lažu kada pokušavaju zadobiti povjerenje ljudi

Preporučeni blogovi

Komunikacije nisu estetska nadogradnja, već strateška arhitektura

Harvard otkriva: AI alati povećavaju radne obaveze

OpenAI počinje prikazivati oglase u ChatGPT-u

AI modeli lažu kada pokušavaju zadobiti povjerenje ljudi

Preporučeni blogovi

Učim te kako kupiti slobodu

Sretan Međunarodni dan žena!

PRO u PROmptingu

Komunikacije nisu estetska nadogradnja, već strateška arhitektura

Harvard otkriva: AI alati povećavaju radne obaveze

OpenAI počinje prikazivati oglase u ChatGPT-u