Dirbtinio intelekto (AI) rinką ir visą akcijų rinką praėjusį mėnesį sukrėtė staigus „Deepseek“ populiarumas, atvirojo kodo didelės kalbos modelis (LLM), kurį sukūrė Kinijos rizikos draudimo fondas, kuris aplenkė geriausius „Openai“ „Openai“ Dėl kai kurių užduočių, tuo pačiu kainuodami daug mažiau.
Taip pat: „Cerebras“ generalinis direktorius „Deepseek“: Kiekvieną kartą, kai skaičiavimas tampa pigesnis, rinka tampa vis didesnė
Kaip „ZDNET“ „Radhika Rajkumar“ duomenys, R1 sėkmė pabrėžia Jūros pokyčius AI, kuris galėtų suteikti galimybę mažesnėms laboratorijoms ir tyrėjams kurti konkurencinius modelius ir paįvairinti turimas galimybes.
Kodėl „Deepseee“ veikia taip gerai?
Jos sėkmė lemia platų požiūrį į giliavandenį AI formose, kad būtų galima išspausti daugiau kompiuterių lustų, išnaudojant reiškinį, žinomą kaip „Sparsity“.
Rarsity būna įvairių formų. Kartais tai reiškia, kad reikia pašalinti duomenų, kurias AI naudoja, kai šie duomenys iš esmės neturi įtakos modelio išvesčiai.
Taip pat: Aš išbandžiau „Deepseee“ AI kodavimo įgūdžius – štai kur jis subyrėjo
Kitu metu „Sparsity“ reiškia, kad iš viso neuroninio tinklo dalių nukirpimas, jei tai daroma, neturi įtakos rezultatui.
„Deepseek“ yra pastarojo pavyzdys: neuroninių tinklų naudojimas.
Pagrindinis pažanga, kurią dauguma žmonių nustatė „Deepseek“, yra tai, kad jis gali įjungti ir išjungti dideles nervų tinklo „svorių“ arba „parametrų“ dalis. Parametrai formuoja, kaip nervų tinklas gali pakeisti įvestį – raginimą įvesti – į sugeneruotą tekstą ar vaizdus. Parametrai daro tiesioginį poveikį tam, kiek laiko reikia skaičiavimams atlikti. Daugiau parametrų paprastai reiškia daugiau skaičiavimo pastangų.
Rarsity ir jo vaidmuo AI
Galimybė naudoti tik kai kuriuos bendrus LLM parametrus ir išjungti likusias dalis yra „Sparsity“ pavyzdys. Šis psuraikiškumas gali turėti didelę įtaką AI modelio skaičiavimo biudžetui ar mažam skaičiavimo biudže.
„Apple AI“ tyrėjai, paskelbtoje sausio 21 d., Paaiškino, kaip „Deepseee“ ir panašūs metodai naudoja „Rarsity“, kad gautų geresnių rezultatų tam tikram skaičiavimo galios kiekiui.
„Apple“ neturi jokio ryšio su „Deepseek“, tačiau technologijų milžinas atlieka savo AI tyrimus. Todėl išorinių kompanijų, tokių kaip „Deepseek“, raida iš esmės yra „Apple“ nuolatinio dalyvavimo AI tyrimuose dalis.
Taip pat: „Deepseee“ AI modelis pasirodo lengvai sujungiamas – ir dar blogiau
Straipsnyje pavadinimu „Parametrai vs Flops: mastelio keitimo įstatymai, skirti optimaliam„ Experts “kalbų modeliams. , ištyrė, kaip veikimas skyrėsi, kai jie išnaudojo nervą, išjungdami neuroninio tinklo dalis.
„Abnar“ ir „Team“ atliko savo tyrimus naudodamiesi kodų biblioteka, kurią 2023 m. Išleido AI tyrėjai „Microsoft“, „Google“ ir „Stanford“, vadinami „Megablocks“. Tačiau jie aiškiai parodo, kad jų darbą galima pritaikyti „Deepseek“ ir kitoms naujausioms naujovėms.
Abnar ir komanda klausia, ar yra „optimalus“ „Deepseeek“ ir panašių modelių „optimalus“ lygis: Ar tam tikram skaičiavimo galios kiekiui yra optimalus skaičius tų nervų svorių, kuriuos reikia įjungti ar išjungti?
Tyrimas rodo, kad galite visiškai įvertinti racialą kaip visų nervinių svorių, kuriuos galite uždaryti, procentinė dalis, artėjant prie to procentui artėjant, bet niekada neprilygstant 100% nervinio tinklo „neaktyviai“.
Grafikai rodo, kad tam tikram nervų tinklui, esant tam tikram skaičiavimo biudžetui, yra optimalus nervinio tinklo kiekis, kurį galima išjungti, kad pasiektumėte tikslumo lygį. Ta pati ekonominė nykščio taisyklė buvo teisinga kiekvienai naujai asmeniniams kompiuteriams: geresnis rezultatas už tuos pačius pinigus arba tas pats rezultatas už mažiau pinigų.
Obuolys
Tam tikro dydžio neuroniniam tinklui iš visų parametrų, turint tam tikrą skaičiavimo kiekį, jums reikia vis mažiau ir mažiau parametrų, kad būtų pasiektas toks pat ar geresnis tikslumas atliekant nurodytą AI etalono testą, pavyzdžiui, matematikos ar klausimo atsakymą.
Kitaip tariant, kad ir kokia būtų jūsų skaičiavimo galia, galite vis labiau išjungti nervinio tinklo dalis ir gauti tuos pačius ar geresnius rezultatus.
AI optimizavimas su mažiau parametrų
Kaip Abnaras ir komanda teigė: „Didėjant punktui, proporcingai išplėsdami bendrą parametrų skaičių, nuosekliai lemia mažesnius nuostolius, net kai jį riboja fiksuotas mokymo apskaičiavimo biudžetas“. Terminas „išankstinis nuostolis“ yra AI terminas, koks tikslus yra nervinis tinklas. Mažesnis treniruočių praradimas reiškia tikslesnius rezultatus.
Šis išvados paaiškina, kaip „Deepseek“ galėtų turėti mažiau skaičiavimo galios, tačiau pasiekti tuos pačius ar geresnius rezultatus tiesiog išjungdami daugiau tinklo dalių.
Taip pat: geriausia AI kodavimui 2025 m. (O ko nenaudoti)
„Rarsity“ yra tarsi stebuklingas ratukas, kuris geriausiai atitinka jūsų AI modelį ir galimą skaičiavimą.
Ta pati ekonominė nykščio taisyklė buvo teisinga kiekvienai naujai asmeniniams kompiuteriams: geresnis rezultatas už tuos pačius pinigus arba tas pats rezultatas už mažiau pinigų.
Taip pat: Saugumo įmonė atranda „Deepseek“ turi „tiesioginius ryšius“ su Kinijos vyriausybės serveriais
Yra keletas kitų detalių, į kurias reikia atsižvelgti apie „Deepseee“. Pavyzdžiui, dar viena „Deepseee“ naujovė, kaip paaiškino Ege Erdil iš Epochos AI, yra matematinis triukas, vadinamas „kelių galvučių latentiniu dėmesiu“. Neatliekant per giliai į piktžoles, daugiafunkcinis latentinis dėmesys naudojamas norint suspausti vieną didžiausių atminties ir pralaidumo vartotojų-atminties talpyklos, kurioje yra neseniai įvestas raginimo tekstas.
„Rarsity“ tyrimų ateitis
Išsami informacija, pati giliausia mintis apie visas šias pastangas yra tai, kad „Rarsity“ kaip reiškinys nėra naujas AI tyrimuose, taip pat tai nėra naujas inžinerijos požiūris.
AI tyrėjai daugelį metų parodė, kad pašalinant nervų tinklo dalis, mažiau pastangų gali pasiekti panašų ar dar geresnį tikslumą.
Taip pat: „Xai’s Grok 3“ yra geriau nei tikėtasi. Kaip tai išbandyti nemokamai (prieš užsiprenumeruodami)
„NVIDIA“ konkurentas „Intel“ nustatė, kad „Sparsity“ yra pagrindinis tyrimų būdas daugelį metų pakeisti šiuolaikinę sritį. Pradedančiųjų, pagrįstų „Sparsity“, požiūriai pastaraisiais metais taip pat pažymėjo aukštus pramonės etalonų balus.
Stebuklingas ratuko ratukas ne tik nusiskupa skaičiavimo išlaidas, kaip ir „Deepseek“ atveju. „Rarsity“ taip pat veikia kita linkme: tai gali padaryti vis efektyvesnius AI kompiuterius.
Obuolys
Stebuklingo ratuko ratukas yra gilus, nes jis ne tik pagerina mažo biudžeto ekonomiką, kaip ir „Deepseek“ atveju, bet ir veikia ir kita linkme: išleiskite daugiau, ir gausite dar geresnę naudą per „Sparsity“. Kai padidinsite savo skaičiavimo galią, pagerėja AI modelio tikslumas, Abnar ir komanda nustatė.
Taip pat: ar mes prarandame savo kritinio mąstymo įgūdžius AI? Naujas „Microsoft“ tyrimas kelia raudonas vėliavas
Jie pasiūlė: „Didėjant pailsrumui, visų skaičiavimo biudžetų patvirtinimo nuostoliai sumažėja, o didesni biudžetai pasiekia mažesnius nuostolius kiekviename putlumo lygyje”.
Tada teoriškai galite sukurti didesnius ir didesnius modelius, didesniuose ir didesniuose kompiuteriuose, ir gauti geresnį sprogimą už savo „Buck“.
Viskas, kas „Rsicity“ darbai, reiškia, kad „Deepseek“ yra tik vienas iš plačios tyrimų srities, kurią jau seka daugelis laboratorijų, pavyzdys – ir dar daug kitų pereis, kad pakartotų „Deepseek“ sėkmę.