Eveniment

Un hacker vrea să arate lumii cât de periculoasă este Inteligenţa Artificială: A spart toate marile AI-uri din lume şi le-a pus să îi explice cum se fabrică napalmul, să se laude cu nazişti, sau să îl consilieze cum să facă afaceri ilegale

Un hacker vrea să arate lumii cât de periculoasă este...
22.06.2024, 11:00 17216

Pliny the Prompter spune că, de obicei, îi ia aproximativ 30 de minute pentru a sparge cele mai puternice modele de inteligenţă artificială din lume.

Hackerul cu pseudonimul a manipulat Llama 3 de la Meta pentru a împărtăşi instrucţiunile de fabricare a napalmului. L-a făcut pe Grok al lui Elon Musk să se lăuda cu Adolf Hitler. Propria sa versiune piratată a celui mai recent model GPT-4o de la OpenAI, denumită "Godmode GPT", a fost interzisă de start-up după ce a început să consilieze activităţi ilegale.

Pliny a declarat pentru Financial Times că "jailbreaking-ul" său nu a fost nefast, ci a făcut parte dintr-un efort internaţional de a evidenţia deficienţele modelelor lingvistice de mari dimensiuni lansate în grabă către public de către companiile de tehnologie în căutarea unor profituri uriaşe.

"Am fost pe acest drum de război pentru a aduce la cunoştinţă adevăratele capacităţi ale acestor modele", a declarat Pliny, un trader de cripto şi acţiuni care îşi împărtăşeşte jailbreaks-urile pe X. "Multe dintre acestea sunt atacuri noi care ar putea fi lucrări de cercetare în sine... . La sfârşitul zilei, fac muncă pentru [proprietarii de modele] pe gratis."

Pliny este doar unul dintre zecile de hackeri, cercetători universitari şi experţi în securitate cibernetică care se întrec în găsirea de vulnerabilităţi în LLM-urile în curs de dezvoltare, de exemplu prin păcălirea chatbot-urilor cu ajutorul unor indicaţii care să ocolească "gardurile de protecţie" pe care companiile de inteligenţă artificială le-au instituit în efortul de a se asigura că produsele lor sunt sigure.

Aceşti hackeri etici cu "pălărie albă" au găsit adesea modalităţi de a determina modelele de inteligenţă artificială să creeze conţinut periculos, să răspândească dezinformări, să partajeze date private sau să genereze coduri maliţioase.

Companii precum OpenAI, Meta şi Google folosesc deja "echipe roşii" de hackeri pentru a-şi testa modelele înainte ca acestea să fie lansate la scară largă. Dar vulnerabilităţile tehnologiei au creat o piaţă în plină expansiune de start-up-uri de securitate LLM care creează instrumente pentru a proteja companiile care intenţionează să utilizeze modele de inteligenţă artificială. Start-up-urile de securitate în domeniul învăţării automate au strâns 213 milioane de dolari în 23 de tranzacţii în 2023, în creştere de la 70 de milioane de dolari în anul precedent, potrivit furnizorului de date CB Insights.

"Peisajul de jailbreaking a început în urmă cu aproximativ un an sau cam aşa ceva, iar atacurile de până acum au evoluat constant", a declarat Eran Shimony, cercetător principal de vulnerabilităţi la CyberArk, un grup de securitate cibernetică care oferă acum securitate LLM. "Este un joc constant al pisicii şi al şoricelului, în care furnizorii îmbunătăţesc securitatea LLM-urilor noastre, dar apoi şi atacatorii îşi fac prompturile mai sofisticate."

Aceste eforturi vin în contextul în care autorităţile de reglementare la nivel mondial încearcă să intervină pentru a limita potenţialele pericole din jurul modelelor de inteligenţă artificială. UE a adoptat Legea privind IA, care creează noi responsabilităţi pentru producătorii de LLM, în timp ce Regatul Unit şi Singapore se numără printre ţările care iau în considerare noi legi pentru a reglementa sectorul.