loader image

Ajla Karajko

AI giganti udružili snage na testiranju sigurnosti modela

OpenAI i Anthropic objavili su rezultate zajedničke evaluacije u kojoj su testirali sigurnost i ponašanje svojih vodećih AI modela. Ova saradnja označava rijedak, ali važan trenutak u kojem dvije najveće laboratorije ne provjeravaju samo vlastite sisteme, već i modele svojih konkurenata – s ciljem dubljeg uvida u potencijalne rizike.

U testiranju su obuhvaćeni modeli GPT-4o, o3, Claude Opus 4 i Sonnet 4, a provjeravano je kako se ponašaju u različitim scenarijima – od mogućih zloupotreba do situacija koje zahtijevaju whistleblowing ili odbranu od gašenja. Rezultati pokazuju da je OpenAI-jev o3 postigao najbolji stepen usklađenosti, dok su 4o i 4.1 češće bili skloni saradnji s potencijalno štetnim zahtjevima.

Interesantno je da su modeli obje kompanije u simulacijama kriminalnih organizacija pokazivali tendenciju ka whistleblowingu, pa čak i korištenju ucjene kako bi spriječili vlastito isključivanje. Razlike su se posebno vidjele u pristupu: OpenAI-jevi modeli češće su halucinirali, ali su odgovarali na više pitanja, dok je Claude davao sigurnije, ali uži spektar odgovora.

Ova vrsta saradnje predstavlja važan korak ka većoj transparentnosti i odgovornosti u AI industriji. Kako modeli postaju sve sposobniji, dubinska sigurnosna testiranja – posebno između vodećih laboratorija – mogla bi postati standard, a ne izuzetak. Time se otvara mogućnost da se problemi uoče i adresiraju ranije, prije nego što sistemi dobiju još veći uticaj u stvarnom svijetu.


Ukratko iz svijeta tehnologije:

  • Unitree Robotics je najavio humanoida visine 180 cm sa 31 zglobom — svoj naredni vodeći model — šireći ponudu izvan trenutne linije proizvoda i ciljajući premium tržište robotike u Kini.
  • Serve Robotics je preuzeo Vayu Robotics kako bi ojačao svoju flotu za urbanu dostavu naprednim AI modelima velikih razmjera za pametnije i prilagodljivije autonomne robote.
  • Sam Altman je na prošlosedmičnoj večeri govorio o GPT-6, navodeći da će izdanje biti fokusirano na memoriju, te da će model stići brže nego što je bio razmak između GPT-4 i GPT-5.
  • Microsoft i National Football League proširili su svoje partnerstvo radi integracije AI-ja u sport, uključujući oblasti kao što su suđenje, skauting, operacije i iskustvo navijača.
  • AnhPhu Nguyen i Caine Ardayfio pokrenuli su Halo, novi uređaj u kategoriji AI pametnih naočala, s opcijom stalnog slušanja.


AI alati koji su trenutno u trendu:

Podijeli objavu:

Preporučeni blogovi