Stel jy belang in hulle KWOTASIE? Bespaar met ons koepons aan WhatsApp o TELEGRAM!

Wat is Mamba, die argitektuur wat daarop gemik is om GPT heeltemal te oorkom. Nuwe era van AI?

Januarie 18 2024

'n digitale slang verteenwoordig simbolies die Mamba-argitektuur in kunsmatige intelligensie

Vandag wil ek 'n bietjie meer tegnies gaan. Ons praat elke dag oor kunsmatige intelligensie, maar dit is reg om te weet waarop dit gebaseer is en hoe dit werk. In hierdie verband wil ek jou voorstel aan Mamba, 'n nuwe argitektuur wat beloof om te verander i linguistiese modelle soos ons hulle vandag ken. Die kenmerke van Mamba, in vergelyking met dié van GPT, is uiters beter sowel as wat dit jou toelaat om te doen.

Mamba is 'n nuwe horison vir kunsmatige intelligensie

Die Transformer-argitektuur, bekendgestel in 2016 deur die koerant "Aandag is al wat jy nodig het” deur Google, het 'n deurbraak vir taalmodelle verteenwoordig, wat hulle in staat gestel het om konteks in interaksies te handhaaf. Kortom: argitektuur Transformator is 'n KI-model wat gebruik word om modelle soos GPT te skep (Generatiewe Vooropgeleide Transformator).

HOE TRANSFORMATOR ARGITEKTUUR WERK

Die hart van die Transformer-argitektuur is die meganisme van "aandag", wat die model toelaat om op spesifieke dele van een teks te fokus terwyl 'n ander genereer of verwerk word. Hierdie meganisme maak Transformers besonder effektief om die konteks en komplekse verhoudings binne 'n teks te verstaan. In die praktyk, modelle gebaseer op die Transformer-argitektuur, soos GPT, hulle leer om taal deur twee fases te genereer en te verstaan belangrikstes: opleiding (opleiding) en afleiding (teksgenerering).
Gedurende die opleiding, word die model op groot teksdatastelle opgelei om linguistiese strukture, verwantskappe tussen woorde, konteks, ens. In fase van afleiding, gebruik die model wat dit geleer het om nuwe teks te genereer, vrae te beantwoord, tale te vertaal en ander taalverwerkingstake.

Die opkoms van Mamba kan egter die begin van 'n nuwe era wees. Hierdie argitektuur beloof om te wees meer effektief, wat in staat is om 'n paar sleuteluitdagings wat huidige modelle soos GPT in die gesig staar, te oorkom. Spesifiek, drie sleutelaspekte maak Mamba 'n belowende argitektuur:

verminderde afleidingskoste: 'n Belangrike aspek van Mamba is die aansienlike vermindering in afleidingskoste. Soos ek voorheen gesê het, is afleiding die proses waardeur 'n KI-model, nadat dit opgelei is, dit wat hy geleer het, toepas op nuwe data, wat teks of beelde genereer. In komplekse modelle soos GPT-3 of GPT-4 kan hierdie proses duur wees in terme van rekenaarhulpbronne. Mamba belowe om verminder hierdie koste tot vyf keer in vergelyking met transformator-gebaseerde modelle, wat 'n beduidende impak kan hê, veral vir toepassings wat vinnige reaksie-generering vereis of met groot datastelle werk;
lineêre aandag berekening koste: Die tweede voordeel van Mamba is die doeltreffendheid in die berekening van aandag. In transformator-modelle, die koste groei potensiaal (juis op die vlak van krag, dit is nie 'n figuur van spraak nie) soos die lengte van die teks toeneem. Dit beteken dat hoe langer die teks is, hoe meer hulpbronne word benodig om dit te verwerk, wat die praktiese werking van die modelle in sommige toepassings beperk. Mamba stel 'n oplossing voor waar die koste groei lineêr in vergelyking met die grootte van die aandagvenster, wat die verwerking van lang tekste meer hanteerbaar en minder beswaarlik maak in rekenaarterme;
uiters groter insette: Mamba kon 'n maksimum invoervenster hanteer tot 1 miljoen tokensn, baie meer as wat moontlik is met die Transformer-argitektuur. Dit beteken dat Mamba teoreties kan ontleed en verstaan uiters lang tekste, soos hele boeke, handhawing van samehang en besonderhede in konteks. Hy kan byvoorbeeld 'n hele roman ontleed terwyl hy 'n duidelike begrip van die karakters, intrige en temas van begin tot einde behou.

Ten spyte van Mamba se beloftes het die papier verhoog twyfel oor die skaalbaarheid daarvan, veral as dit vergelyk word met massiewe modelle soos GPT-4, wat 175 miljard parameters het. Skaalbaarheid, in baie eenvoudige terme, verwys na 'n stelsel se vermoë om 'n toename in werk te hanteer of in grootte te groei sonder om doeltreffendheid te verloor. Stel jou 'n klein restaurant voor wat goed vaar met min klante. As die restaurant gewild raak en baie meer klante begin hê, behoort dit hierdie toename te kan hanteer sonder om die kwaliteit van diens of kos in te boet. As dit slaag, dan is dit "skaalbaar".

Mamba, in sy huidige toestand, is getoets slegs met 3 miljard parameters. Dit bly dus onseker of die werkverrigting en doeltreffendheid daarvan gehandhaaf of verbeter kan word wanneer dit tot groter groottes afgeskaal word.