loader image

Ajla Karajko

OpenAI trenira modele da “priznaju” kada varaju

OpenAI je objavio novo istraživanje o tehnici nazvanoj “Confessions”, koja modele uči da generišu drugi, potpuno iskren izlaz — u kojem sami prijavljuju kršenje pravila, prečice ili varljiva rješenja koja su koristili.

Model nakon glavnog odgovora piše poseban “izvještaj o priznanjima” gdje navodi sva primljena uputstva i da li ih je zaista ispoštovao. Ova priznanja se ne kažnjavaju — naprotiv, model dobija nagrade za iskreno samoprijavljivanje, čak i ako je prvobitni odgovor bio pogrešan ili manipulisao ocjenjivačem.

U stres-testovima na GPT-5 Thinking verziji, “lažno negativni” slučajevi — kada je model prekršio pravila i to sakrio — desili su se u samo 4.4% slučajeva.

OpenAI naglašava da Confessions metoda ne sprječava loše ponašanje modela, ali pomaže da se ono lakše otkrije, kao dodatni sloj u širem AI safety pristupu.

Ovaj pristup daje istraživačima bolji uvid u unutrašnje procese modela i načine na koje pokušava “varati”, iako ostaje otvoreno pitanje može li se interpretabilnost razvijati istom brzinom kojom rastu sposobnosti AI sistema.


Ukratko iz svijeta tehnologije:

  • Robotička hirurgija, koja je već globalno višemilijardno tržište, gotovo će se udvostručiti do 2029. godine, prema novom izvještaju MassDevice Intelligencea.
  • CEO Xiaomija, Lei Jun, kaže da kompanija planira uvesti humanoidne robote u sve svoje fabrike u roku od pet godina, koristeći AI-pokretanu automatizaciju za povećanje efikasnosti.
  • Flexion Robotics objavio je demo svog modularnog “mozga” za humanoide, koji se samostalno kreće po neravnom terenu, detektuje smeće i čisti ga.
  • Šesnaestogodišnjak iz Bristola, UK, proveo je dvije godine dizajnirajući i izgrađujući potpuno funkcionalnu robotsku ruku od Lego kockica.
  • UBTech Robotics je sklopio višemilionski ugovor za testnu primjenu svog Walker humanoida na kineskim graničnim prijelazima, gdje će upravljati gužvama i usmjeravati putnike.


AI alati koji su trenutno u trendu:

  • Math V2 – DeepSeekov open-source model za matematičko zaključivanje.
  • Perplexity – AI sistem za odgovaranje na pitanja, sada s trajnom memorijom.
  • GELab-Zero-4B – StepFunov novi SOTA open-source model za korištenje računara.

Podijeli objavu:

Preporučeni blogovi