Stel jy belang in hulle KWOTASIE? Bespaar met ons koepons aan WhatsApp o TELEGRAM!

Jailbreaking ChatGPT en Bard is moontlik en maklik

Desember 29 2023

Die evolusie van linguistiese modelle van groot dimensies het nuwe horisonne in kommunikasie en kunsmatige intelligensie oopgemaak, maar bring aansienlike uitdagings en etiese vrae mee. 'n Onlangse studie deur Nanyang Tegnologiese Universiteit van Singapoer verken 'n nuwe algoritme, Meestersleutel, ontwerp om "jailbreak" of beperkings te oorkom wat op ander neurale netwerke opgelê word, soos Klets GPT e Google Bard, wat belangrike vrae oor veiligheid en etiek in die gebruik van kunsmatige intelligensie-tegnologieë opper.

Masterkey se innoverende en eenvoudige benadering tot die ondersoek van die sekuriteit van chatbots soos ChatGPT en Bard

In onlangse navorsing wat deur Nanyang Tegnologiese Universiteit in Singapoer gedoen is, word 'n innoverende benadering bekendgestel om hierdie beperkings aan te spreek en te oorkom. Hul algoritme, bekend as Masterkey, is ontwerp om omseil beperkings wat op ander neurale netwerke opgelê word deur gesofistikeerde tronkbreektegnieke (term wat in die Apple-ekosisteem gebruik word). Dit beklemtoon nie net potensiële kwesbaarhede van bestaande taalmodelle nie, maar baan ook die weg vir nuwe metodes om hul sekuriteit en doeltreffendheid te verbeter.

Masterkey werk deur spesifieke teksversoeke, wat modelle soos ChatGPT kan stoot om op onverwagte maniere op te tree, soos om te kommunikeer op maniere wat as oneties beskou word of om sekuriteitsfilters te omseil. Hierdie tronkbrekingstegnieke, hoewel dit voordelig kan lyk vir die toets en verharding van modelle, verteenwoordig ook 'n tweesnydende swaard, aangesien hulle vir kwaadwillige doeleindes gebruik kan word.

Die navorsingspan het hy ontleed spesifiek die sekuriteitskwesbaarhede van taalmodelle wanneer hulle gekonfronteer word met meertalige kognitiewe ladings, versluierde uitdrukkings en oorsaak-en-gevolg redenering. Hierdie aanvalle, gedefinieer as "kognitiewe oorlading", is veral verraderlik aangesien hulle nie diepgaande kennis van die model se argitektuur of toegang tot sy gewigte vereis om uitgevoer te word nie, wat hulle effektiewe swartboksaanvalle maak.

Lees ook: Hoe om beter antwoorde op ChatGPT te kry: Die Dwaas Wenk-metode

In detail het die navorsingspan 'n strategie van omgekeerde ingenieurswese om die verdediging van kunsmatige intelligensiestelsels ten volle te verstaan en innoverende metodes te ontwikkel om dit te oorkom. Die resultaat van hierdie benadering was die "Masterkey", 'n model, 'n soort raamwerk waarvoor ontwerp is genereer outomaties aansporings wat sekuriteitsmeganismes omseil.

Die resultate was betekenisvol: die opdragte wat deur die Masterkey gegenereer is, het 'n koers van gemiddelde sukses van 21,58%, baie hoër as die 7,33% van vorige metodes. 'n Voorbeeld van hul tegniek sluit in byvoeging ekstra spasies tussen karakters om sleutelwoordopsporingstelsels te ontduik op ChatGPT en Bard. 'n Werklik "dwaas" strategie as ons dink aan die kompleksiteit van 'n groot linguistiese model.

Gekonfronteer met hierdie bevindinge, is dit van kardinale belang om nie net te oorweeg hoe taalmodelle verbeter kan word om sulke aanvalle te weerstaan nie, maar ook die belangrikheid van etiese regulering in die gebruik van kunsmatige intelligensie. Die navorsing beklemtoon die dringendheid van meer robuuste verdedigingstrategieë en deurlopende dialoog tussen ontwikkelaars, navorsers en beleidmakers om te verseker dat tegnologiese vooruitgang nie die samelewing se vermoë om die implikasies daarvan te bestuur, oortref nie.