OpenAI trenira modele da “priznaju” kada varaju

9 Decembra, 2025

OpenAI je objavio novo istraživanje o tehnici nazvanoj “Confessions”, koja modele uči da generišu drugi, potpuno iskren izlaz — u kojem sami prijavljuju kršenje pravila, prečice ili varljiva rješenja koja su koristili.

Model nakon glavnog odgovora piše poseban “izvještaj o priznanjima” gdje navodi sva primljena uputstva i da li ih je zaista ispoštovao. Ova priznanja se ne kažnjavaju — naprotiv, model dobija nagrade za iskreno samoprijavljivanje, čak i ako je prvobitni odgovor bio pogrešan ili manipulisao ocjenjivačem.

U stres-testovima na GPT-5 Thinking verziji, “lažno negativni” slučajevi — kada je model prekršio pravila i to sakrio — desili su se u samo 4.4% slučajeva.

OpenAI naglašava da Confessions metoda ne sprječava loše ponašanje modela, ali pomaže da se ono lakše otkrije, kao dodatni sloj u širem AI safety pristupu.

Ovaj pristup daje istraživačima bolji uvid u unutrašnje procese modela i načine na koje pokušava “varati”, iako ostaje otvoreno pitanje može li se interpretabilnost razvijati istom brzinom kojom rastu sposobnosti AI sistema.

Ukratko iz svijeta tehnologije:

Robotička hirurgija, koja je već globalno višemilijardno tržište, gotovo će se udvostručiti do 2029. godine, prema novom izvještaju MassDevice Intelligencea.
CEO Xiaomija, Lei Jun, kaže da kompanija planira uvesti humanoidne robote u sve svoje fabrike u roku od pet godina, koristeći AI-pokretanu automatizaciju za povećanje efikasnosti.
Flexion Robotics objavio je demo svog modularnog “mozga” za humanoide, koji se samostalno kreće po neravnom terenu, detektuje smeće i čisti ga.
Šesnaestogodišnjak iz Bristola, UK, proveo je dvije godine dizajnirajući i izgrađujući potpuno funkcionalnu robotsku ruku od Lego kockica.
UBTech Robotics je sklopio višemilionski ugovor za testnu primjenu svog Walker humanoida na kineskim graničnim prijelazima, gdje će upravljati gužvama i usmjeravati putnike.

AI alati koji su trenutno u trendu:

Math V2 – DeepSeekov open-source model za matematičko zaključivanje.
Perplexity – AI sistem za odgovaranje na pitanja, sada s trajnom memorijom.
GELab-Zero-4B – StepFunov novi SOTA open-source model za korištenje računara.

OpenAI trenira modele da “priznaju” kada varaju

Preporučeni blogovi

Komunikacije nisu estetska nadogradnja, već strateška arhitektura

Harvard otkriva: AI alati povećavaju radne obaveze

OpenAI počinje prikazivati oglase u ChatGPT-u

OpenAI trenira modele da “priznaju” kada varaju

Preporučeni blogovi

Učim te kako kupiti slobodu

Sretan Međunarodni dan žena!

PRO u PROmptingu

Komunikacije nisu estetska nadogradnja, već strateška arhitektura

Harvard otkriva: AI alati povećavaju radne obaveze

OpenAI počinje prikazivati oglase u ChatGPT-u