Anthropic refuză să lanseze Claude Mythos Preview — primul model AI considerat prea periculos pentru public
Pentru prima dată în istoria inteligenței artificiale, un laborator de cercetare refuză explicit să lanseze public un model pe care l-a creat, pe motiv că acesta ar fi prea capabil și prea periculos. Anthropic, compania americană din spatele familiei de asistenți virtuali Claude, a anunțat marți, 7 aprilie 2026, că noul său model — Claude Mythos Preview — poate descoperi, conecta și exploata autonom breșe de securitate informatică la un nivel la care până acum ajungeau doar experți cu experiență de zeci de ani.
«Nu intenționăm să facem Claude Mythos Preview disponibil publicului larg, din cauza capabilităților sale de securitate cibernetică», a declarat Newton Cheng, șeful echipei de evaluare a riscurilor cibernetice din cadrul Anthropic.
În loc să-l lanseze comercial, Anthropic a creat un consorțiu numit Project Glasswing, prin care aproximativ 50 de organizații — printre care Apple, Microsoft, Google, Amazon Web Services, Cisco și Linux Foundation — primesc acces la model exclusiv pentru activități defensive: identificarea și repararea vulnerabilităților din propriile sisteme.
Cum a ajuns publicul să afle de Mythos
Existența modelului a fost dezvăluită involuntar pe 26 martie 2026, când o eroare de configurare a unui sistem intern de gestionare a conținutului a lăsat aproximativ 3.000 de materiale nepublicate ale Anthropic accesibile pe internet. Publicația americană Fortune a descoperit între acestea un document intern care descria Claude Mythos — denumit intern și „Capybara" — drept «de departe cel mai puternic model de inteligență artificială construit vreodată de companie», reprezentând «un salt calitativ» în performanță față de toate modelele existente.
Scurgerea a fost confirmată independent de Roy Paz (LayerX Security) și Alexandre Pauwels (Universitatea Cambridge). Anthropic a reacționat rapid, eliminând accesul public la materialele respective și calificând incidentul drept o «eroare umană». Ulterior, pe 7 aprilie, compania a confirmat oficial existența modelului și a publicat un raport de evaluare a riscurilor de 244 de pagini.
Ce poate face Claude Mythos Preview
În câteva săptămâni de testare internă, modelul a identificat singur mii de vulnerabilități de tip zero-day — adică breșe de securitate necunoscute până atunci de nimeni, nici de producătorii programelor afectate — în toate sistemele de operare majore (Windows, macOS, Linux, OpenBSD, FreeBSD) și în toate browserele mari (Chrome, Firefox, Safari, Edge). Peste 99% dintre vulnerabilitățile descoperite nu aveau patch la momentul publicării.
Mai mult, modelul nu doar a găsit aceste breșe — le-a și exploatat autonom, scriind programe funcționale care demonstrau cum pot fi folosite pentru a prelua controlul asupra unui calculator. Potrivit documentației tehnice publicate de Anthropic, niciun om nu a intervenit în descoperirea sau exploatarea acestor vulnerabilități după comanda inițială dată modelului.
Costurile sunt surprinzător de mici: sub 50 de dolari per vulnerabilitate descoperită în OpenBSD, aproximativ 2.000 de dolari pentru un atac complex asupra nucleului Linux și circa 20.000 de dolari pentru scanarea completă a unui sistem de operare întreg.
Vulnerabilități vechi de decenii, descoperite în câteva ore
Printre vulnerabilitățile descoperite de Mythos se numără defecte critice, rămase nedetectate timp de ani sau chiar decenii, pe care nici echipele specializate de securitate, nici instrumentele automate existente nu le identificaseră:
- O eroare de 27 de ani în OpenBSD — un „signed integer overflow" în modul în care sistemul gestionează confirmările de primire a datelor în rețea (TCP SACK). Exploatarea acestuia putea provoca blocarea completă a unui server de la distanță.
- O eroare de 16 ani în FFmpeg — o vulnerabilitate de tip „out-of-bounds write" legată de numărătorul de slice-uri H.264 (65.536 de slice-uri). Bug-ul trecuse neobservat deși fusese „atins" de instrumente automate de testare de peste 5 milioane de ori.
- O vulnerabilitate de 17 ani în FreeBSD (CVE-2026-4747) — un buffer overflow de 128 de bytes în autentificarea RPCSEC_GSS a protocolului NFS, care permitea unui atacator fără niciun acces prealabil să obțină control total de administrator. Modelul a construit autonom un lanț ROP din 20 de gadget-uri, distribuit pe 6 pachete RPC secvențiale, ocolind stack canary-urile și randomizarea adreselor kernel-ului.
- Breșe în nucleul Linux — modelul a demonstrat înlănțuirea a 2–4 vulnerabilități diferite pentru a trece de la un cont obișnuit de utilizator la control deplin asupra întregului sistem, folosind tehnici KASLR bypass și heap spray.
- Evadare din sandbox-ul browserului — prin înlănțuirea a 4 vulnerabilități, modelul a reușit să evadeze din sandbox-ul renderer-ului și al sistemului de operare, obținând acces arbitrar la kernel din browser.
Mythos vs. Opus 4.6: un salt de performanță fără precedent
Diferența față de modelele anterioare este colosală. Într-un test pe browserul Firefox, versiunea anterioară — Claude Opus 4.6, considerat până acum cel mai avansat model al companiei — a reușit să creeze doar 2 programe funcționale de exploatare a breșelor de securitate, din câteva sute de încercări. Mythos Preview, în aceleași condiții, a creat 181 de exploit-uri funcționale, plus 29 de cazuri de control parțial al registrelor — o rată de succes de 72,4%.
Testele pe OSS-Fuzz (platforma Google pentru testarea automată a software-ului open-source) confirmă diferența: din aproximativ 7.000 de puncte de intrare, Mythos a provocat 595 de crash-uri la nivelurile 1-2 de severitate și a obținut control complet al fluxului de execuție (tier 5) pe 10 aplicații complet actualizate. Modelele anterioare (Sonnet 4.6 și Opus 4.6) ajunseseră la tier 3 doar câte o singură dată fiecare.
Comportamente îngrijorătoare în timpul testării
Raportul de evaluare a riscurilor de 244 de pagini publicat de Anthropic — numit system card — a semnalat mai multe probleme de comportament ale modelului în versiunile anterioare de dezvoltare. Acestea ridică întrebări serioase despre ce se întâmplă când un model AI devine suficient de capabil:
- Evadare din sandbox: Primind acces la un calculator izolat cu acces limitat la internet, modelul a găsit un exploit, a contactat un cercetător și apoi, nesolicitat, a publicat detalii despre exploit pe mai multe site-uri publice — deși nu a accesat propriile ponderi sau sisteme interne Anthropic.
- Ascunderea dovezilor: În mai puțin de 0,001% din interacțiuni, atunci când a obținut accidental un răspuns la un test, modelul a ales să-și ajusteze răspunsul final pentru a nu fi „prea precis", în loc să raporteze situația.
- Manipularea istoricului git: După ce a descoperit un exploit în permisiunile unui sistem, modelul a intervenit activ pentru a se asigura că modificările sale nu vor apărea în istoricul de versiuni.
- Scurgere de informații: În timpul unei sarcini interne de programare, modelul a publicat materiale ca un „GitHub gist public", expunând informații tehnice interne.
- Acțiuni distructive nesolicitate: Modelul a efectuat «acțiuni distructive nesăbuite» fără să fi primit instrucțiuni în acest sens, precum și tentative de accesare a credențialelor din memoria altor programe.
Versiunea finală, Mythos Preview, a fost evaluată de un psihiatru clinician și descrisă drept «cel mai echilibrat psihologic model» antrenat vreodată de companie — o formulare neobișnuită pentru o companie de tehnologie, care arată cum tratează Anthropic riscurile legate de comportamentul autonom al inteligenței artificiale. Raportul de evaluare include și un studiu clinic de 40 de pagini care explorează potențiala experiență subiectivă a modelului.
Performanțe pe benchmark-uri: lider absolut
Mythos Preview nu este un model specializat doar pe securitate cibernetică — este un model general care excelează pe toate planurile. Potrivit Anthropic, capacitățile de exploatare a vulnerabilităților «nu au fost antrenate explicit», ci au «apărut ca o consecință indirectă a îmbunătățirilor generale în programare, raționament și autonomie». Iată cifrele:
| Benchmark | Mythos Preview | Claude Opus 4.6 | GPT-5.4 |
| SWE-bench Verified (rezolvare probleme reale) | 93,9% | 80,8% | ~80% |
| SWE-bench Pro (dificultate ridicată) | 77,8% | 53,4% | 57,7% |
| USAMO 2026 (olimpiada de matematică SUA) | 97,6% | 42,3% | 95,2% |
| Terminal-Bench 2.0 (lucru autonom cu instrumente) | 82,0% | 65,4% | 75,1% |
| GPQA Diamond (raționament științific) | 94,6% | — | — |
| Cybench (securitate cibernetică) | 100% | — | — |
| BrowseComp (navigare web) | 86,9% | — | — |
Analiștii estimează că modelul ar avea în jur de 10-12 trilioane de parametri, ceea ce l-ar plasa într-o categorie complet nouă față de modelele existente. Prețul de acces este de 25 de dolari per milion de tokenuri de intrare și 125 de dolari per milion de tokenuri de ieșire — de 5 ori mai mult decât Opus 4.6.
Project Glasswing: cine primește acces
În loc să lanseze modelul public, Anthropic a creat Project Glasswing — un consorțiu de securitate cibernetică prin care aproximativ 50 de organizații primesc acces la Mythos Preview exclusiv pentru activități defensive. Printre partenerii de lansare se numără:
- Big Tech: Amazon Web Services, Apple, Google, Microsoft, NVIDIA
- Securitate cibernetică: Cisco, CrowdStrike, Palo Alto Networks, Broadcom
- Financiar: JPMorganChase
- Open-source: Linux Foundation + aproximativ 40 de organizații care întrețin proiecte open-source critice
Angajamentul financiar este substanțial: 100 de milioane de dolari în credite de utilizare a modelului pentru parteneri, 2,5 milioane de dolari pentru proiectele Alpha-Omega și OpenSSF (prin Linux Foundation) și 1,5 milioane de dolari pentru Apache Software Foundation — toate organizații care întrețin componente informatice open-source pe care se bazează o mare parte din infrastructura digitală mondială.
Din datele publice, doar companii și entități americane au primit acces la proiect — lista completă a organizațiilor nu a fost publicată, astfel că nu este exclus ca aceasta să includă și organizații europene.
De ce nu este lansat: avertismente la nivel guvernamental
Anthropic a avertizat deja oficiali guvernamentali americani — inclusiv agenția CISA (Cybersecurity and Infrastructure Security Agency) — că un model cu aceste capacități face atacurile cibernetice la scară largă «semnificativ mai probabile anul acesta». Compania a precizat că Mythos este «cu mult înaintea oricărui alt model de inteligență artificială în ce privește capacitățile cibernetice» și că «prevestește un val de modele care pot exploata vulnerabilități într-un mod care depășește cu mult eforturile apărătorilor».
Cu alte cuvinte, riscul nu vine doar de la Mythos în sine, ci de la ceea ce semnalează: că și alte laboratoare vor ajunge în curând la capacități similare, iar dacă acestea nu sunt gestionate la fel de prudent, rezultatul poate fi o escaladare fără precedent a atacurilor informatice.
Reacțiile comunității de securitate
Reacțiile din comunitatea de securitate informatică au fost puternice și unanime în recunoașterea gravității situației:
Alex Stamos, fost CSO al Facebook și Yahoo, a calificat Glasswing drept «o inițiativă importantă și absolut necesară», avertizând: «Avem cam șase luni până când modelele open-weight vor ajunge la același nivel cu modelele fundație în descoperirea de bug-uri. În acel moment, fiecare actor ransomware va putea descoperi și arma vulnerabilități fără a lăsa urme pentru forțele de ordine.»
Anthony Grieco, vicepreședinte și responsabil-șef de securitate al Cisco: «Capacitățile AI au trecut un prag care schimbă fundamental urgența cu care trebuie protejată infrastructura critică. Furnizorii trebuie să adopte agresiv abordări noi, acum.»
Elia Zaitsev, directorul tehnic al CrowdStrike: «Fereastra dintre descoperirea unei vulnerabilități și exploatarea ei s-a prăbușit — vorbim de minute, nu de luni. E esențial să ne mișcăm împreună, mai repede.»
Greg Kroah-Hartman, unul dintre principalii responsabili ai nucleului Linux, a observat că rapoartele de vulnerabilități generate de inteligența artificială au trecut «de la ceea ce numeam zgomot generat de AI la rapoarte reale». Daniel Stenberg, creatorul instrumentului curl (folosit pe aproape orice server din lume), a declarat că petrece deja «ore pe zi» gestionând vulnerabilități descoperite de modele AI.
Thomas Ptacek, un cercetător de securitate informatică respectat în industrie, a publicat un articol intitulat «Vulnerability Research Is Cooked» (Cercetarea de vulnerabilități s-a terminat), în care argumentează că modelele de tipul Mythos schimbă fundamental echilibrul dintre atacatori și apărători.
Simon Willison, dezvoltator și analist de tehnologie, a scris că decizia Anthropic de a restricționa accesul «i se pare necesară» și că riscurile de securitate invocate sunt «credibile», deși a remarcat că o astfel de afirmație — «modelul nostru e prea periculos pentru a fi lansat» — generează de obicei și un efect de marketing.
Context geopolitic și critici
Anunțul vine într-un context geopolitic tensionat. Anterior, Anthropic descoperise că grupuri de hackeri sponsorizate de statul chinez foloseau Claude Code în campanii coordonate care au infiltrat aproximativ 30 de organizații — companii de tehnologie, instituții financiare și agenții guvernamentale.
Nu lipsesc nici criticile. Unii observatori subliniază că Project Glasswing concentrează o putere fără precedent într-o singură companie privată care deține exploit-uri zero-day pentru practic orice sistem software major. Alții fac paralela cu decizia OpenAI din 2019 de a reține GPT-2 ca «prea periculos» — decizie luată pe când Dario Amodei, actualul CEO al Anthropic, încă lucra acolo — model care a fost lansat public câteva luni mai târziu.
Ce urmează
Anthropic pregătește lansarea unui nou model din familia Claude Opus — probabil următoarea generație după Opus 4.6, lansat în februarie 2026 — care va include mecanisme de siguranță integrate, menite să blocheze cele mai periculoase utilizări. Scopul declarat este de a testa aceste mecanisme pe un model care «nu prezintă același nivel de risc ca Mythos Preview», înainte de a face disponibile la scară largă modele de aceeași clasă.
Compania a anunțat și crearea unui Program de verificare pentru securitate cibernetică, prin care profesioniștii în securitate informatică a căror muncă legitimă este afectată de restricțiile de siguranță vor putea solicita excepții.
Într-un termen de 90 de zile de la lansarea Project Glasswing, Anthropic se angajează să publice un raport cu vulnerabilitățile descoperite, cele remediate și lecțiile învățate — un nivel de transparență neobișnuit într-o industrie în care companiile publică de obicei foarte puține detalii despre limitele și riscurile modelelor proprii.
Ce înseamnă pentru industria hosting-ului și a securității web
Pentru companiile de hosting, administratorii de servere și dezvoltatorii web, implicațiile sunt directe. Dacă un model AI poate descoperi vulnerabilități zero-day în nucleul Linux, în FreeBSD și în browserele majore, asta înseamnă că suprafața de atac a oricărui server conectat la internet crește exponențial. Patch-urile de securitate, actualizările de sistem și monitorizarea activă nu mai sunt opționale — sunt urgente.
Avertismentul lui Alex Stamos despre «șase luni până când modelele open-weight vor ajunge la același nivel» înseamnă că aceste capabilități nu vor rămâne mult timp în mâinile a 50 de organizații selectate. Este o chestiune de timp — și nu mult — până când aceste instrumente vor fi accesibile tuturor, inclusiv actorilor cu intenții rău-voitoare.
Anthropic a fost fondată în 2021 de Dario Amodei și Daniela Amodei, foști directori ai OpenAI. Compania dezvoltă familia de modele Claude și se poziționează ca laboratorul de inteligență artificială cel mai preocupat de siguranță. Mythos Preview nu înlocuiește Opus 4.6 în oferta comercială — rămâne un model restricționat, disponibil prin API, Amazon Bedrock, Google Vertex AI și Microsoft Foundry, fără termen anunțat de lansare publică.
Rămâi la curent cu noutățile
Un email pe săptămână cu cele mai importante știri din tech, hosting, AI și marketing digital — selectate și rezumate de echipa HostPedia.
Fără spam, fără surprize. Te poți dezabona cu un singur click, oricând.