Jos et ymmärrä omia arvoja, et ymmärrä AI: ta Entä jos kertoisin teille, että kolme numeroa - vain kolme - voisi ennustaa, toimiiko AI vai epäonnistuu katastrofaalisesti? Ei uutta arkkitehtuuria, ei uudelleenkoulutusta, ei infrastruktuurin uudistamista. Matematiikka, joka on istunut oppikirjoissa vuodesta 1950, odottaen, että joku häiritsee sen tarkistamista. Nämä kolme numeroa olisivat saaneet: Teidän Teslan aave jarruttaa ilman syytä. Teidän Teslan aave jarruttaa ilman syytä. GPT-4 viittaa tuomioistuimen tapaukseen, jota ei ole olemassa: esitti asianajaja, joka sai rangaistuksen. GPT-4 viittaa tuomioistuimen tapaukseen, jota ei ole olemassa: esitti asianajaja, joka sai rangaistuksen. Sinun malli, koulutettu kolme viikkoa, kaunis tappiokäyrä, lähetettiin prod, välittömästi putoaa kasvoilleen. Sinun malli, koulutettu kolme viikkoa, kaunis tappiokäyrä, lähetettiin prod, välittömästi putoaa kasvoilleen. Same root cause. Every single time. Kolme numeroa, joita kaikki eivät tiedä Kukaan ei kerro niistä. Ei kehystäsi. Ei kurssityötäsi. Ei dokumentaatiota, Onko johtopäätös vakaa vai hallusinaatio, onko minimi todellinen vai ansa. vaikka he ennustavat, toimiiko harjoittelu tai räjähtää kasvoillesi vaikka he ennustavat, toimiiko harjoittelu tai räjähtää kasvoillesi : Onko optimisaattorisi tuhlata laskennallista zig-zaggingia? Tämä luku mittaa, kuinka "laajennettu" tappion maisema on. Poltat 90 prosenttia tietokoneestasi sivusuunnassa sen sijaan, että menisit alaspäin (virheen minimiin) 1. Ehdonumero κ (λ_max / λ_min) Korkea k tarkoittaa kanjoni. Ehdonumero κ (λ_max / λ_min) Ehdonumero κ (λ_max / λ_min) Korkea k tarkoittaa kanjoni. : Oliko malli todella oppinut - tai vain muistaa? Lue lisää, ja löydät GIF alla, joka selittää sen paremmin kuin koko sarja yhtälöitä. 2. Oman arvon suuruus ε (̧λ_max) Söpö Oman arvon suuruus ε (̧λ_max) Oman arvon suuruus ε (̧λ_max) 3. You might be convinced that the gradient from your AI framework is enough to finish training your shiny new network. That’s what you were told: : Negatiivinen oman arvon luku δ (#λ < 0) Gradientti sanoo: ”Olemme valmiita, ei ole minne mennä”, koska kaltevuus on tasainen joka suuntaan, jota mittaat. Negatiivinen oman arvon luku δ (#λ < 0) Negatiivinen oman arvon luku δ (#λ < 0) Mutta entä jos koulutuksesi on jumissa väärään minimiin? That’s what this killer δ number is for. As a preview: Kun δ = 0, olet todellinen vähimmäismäärä - laakso. Kun δ > 0, olet vuoristossa. Alla näet animoidun grafiikan, joka selventää kysymyksiä, joita todennäköisesti kysyt itseltäsi juuri nyt. Uskokaa tai älkää - tämä Vanha matematiikka on on Tämä matematiikka on ollut olemassa vuodesta 1950, ennen kuin kukaan olisi haaveillut hermoverkosta. Seitsemänkymmentäviisi vuotta matemaatikkoja huutavat tyhjyyteen. Ja silti - juuri nyt, tänään, kun luet tätä - ei PyTorchissa. ei TensorFlowissa. ei JAX: ssä. ei Kerasissa. ei missään tavallisessa koulutusputkessa, joka polttaa miljoonia dollareita. Kolme numeroa, jotka kertoisivat sinulle kaiken. Maailman suurimmat AI-laboratoriot? he katsovat tappiokäyrää. risteävät sormet. Ja kutsuvat sitä tekniikaksi. OpenAI jättää ne huomiotta. Google ohittaa ne. Anthropic ei edes tiedä niiden olemassaolosta. OpenAI jättää ne huomiotta. Google ohittaa ne. Anthropic ei edes tiedä niiden olemassaolosta. Mutta jatka lukemista, et ole vielä nähnyt parasta osaa. Oletko utelias AI: n piilossa olevasta puolesta?Lue lisää sivuiltani täältä Oletko utelias AI: n piilossa olevasta puolesta?Lue lisää sivuiltani täältä The Three Numbers Everyone Misses Joten olet tavannut κ, ε ja δ. Kolme numeroa, jotka ennustavat kaiken. Kysy itseltäsi: Missä he ovat? Ei näytölläsi, ei päiväkirjoissasi, ei missään triljoonan dollarin AI-teollisuudessa. Nämä kolme numeroa eivät ole teoriaa.Ne ovat diagnostinen paneeli, jonka pitäisi olla olemassa ... mutta ei. Instead, here’s what the most popular AI frameworks — PyTorch, TensorFlow, JAX, Keras — actually give you: Arvon menettäminen ✓ Suuntaviiva ✓ Oppimisen taso ✓ Se on sitä, se on koko taulukko. Kolme numeroa – mutta ei oikea kolme. Ei κ (edellytysnumero). Ei ε (eigenvalue magnitude). Ei δ (negative eigenvalue count). κ κ ε ε δ δ Ja se ei ole vain teidän kehyksenne. OpenAI: n sisäiset työkalut? Sama sokea kohta. Googlen infrastruktuuri? Sama aukko. Anthropicin koulutusputki? Sama puuttuva paneeli. Koko teollisuus lentää samaa rikkoutunutta instrumenttiklusteria. AI: n kouluttaminen tänään on kuin lentäisi 747: llä nopeusmittari, kompassi ja värähtelyt. AI: n kouluttaminen tänään on kuin lentäisi 747: llä nopeusmittari, kompassi ja värähtelyt. AI: n kouluttaminen tänään on kuin lentäisi 747: llä nopeusmittari, kompassi ja värähtelyt. Suuri - se tarkoittaa, että virhe laskee, koulutus näyttää hyvältä. Mutta Onko malli löytänyt todellisen ratkaisun, vai vain muistaa melua ja kaivaa itsensä reikään, josta se ei koskaan pääse pakoon? Miksi Omat arvot kertoisivat sinulle. suosikki AI-kehyksesi ohjauspaneeli ei. Figure 2b makes this obvious: Where those three numbers come from : Se koodaa kadonneen maiseman täydellisen kaarevuuden. Jokainen kanjoni, jokainen rinteet, jokainen tasainen korkeus. He elävät sisällä jotain, jota kutsutaan Hessian the second derivative matrix of your loss function Ja tässä on absurdi osa: Hessian on täysin laskettavissa. Se istuu siellä, huutaa diagnostisia tietoja, eikä kukaan katso sitä. Ja tässä on absurdi osa: Hessian on täysin laskettavissa. Se istuu siellä, huutaa diagnostisia tietoja, eikä kukaan katso sitä. Here’s how it works: Katso kaksi laatikkoa kuvan keskellä. Vasemmalla: mitä PyTorch näyttää sinulle. Menetys näyttää hyvältä. Gradientti lähellä nollaa. Oppimisnopeus asetetaan. Vihreä valo. Lähetä se. Oikealla puolella: mitä ja ja paljastaa. tila numero katon läpi. terävyys kaavioiden ulkopuolella. Kaksi negatiivista oma-arvoa. Et ole vähintään: κ ε δ you’re stuck at a saddle point pretending to be done κ ε δ Samanlaisia tuloksia, samanlaisia päinvastaisia tuloksia. Samanlaisia tuloksia, samanlaisia päinvastaisia tuloksia. Samanlaisia tuloksia, samanlaisia päinvastaisia tuloksia. OpenAI ei laske tätä, Google ei laske tätä. Kukaan, joka käyttää useita satoja tuhansia dollareita kuukaudessa GPU-klusteria, ei tarkista omia arvoja. Kukaan, joka käyttää useita satoja tuhansia dollareita kuukaudessa GPU-klusteria, ei tarkista omia arvoja. He katsovat tappiokäyrää ja olet arvannut oikein... rukoilemalla! Mutta Hessian on liian raskas! Siellä joku Googlesta nostaa kätensä. Hessian on n×n. Miljardiparametrimallille se on miljardi kertaa miljardi. The Hessian is n×n. For a billion-parameter model, that’s a billion times a billion. You can’t compute that. It’s mathematically insane ! Correct. And completely irrelevant. You don’t need the full matrix. You never did. Unkarilainen fyysikko nimeltä — kun "tietokone" tarkoitti huonetta, joka oli täynnä tyhjiöputkia ja pakkomielteistä sormenjälkeä. Hänen menetelmänsä poimii hallitsevat omaarvot käyttämällä iteratiivisia matriisi-vektorituotteita. monimutkaisuus: Periaatteessa ilmainen verrattuna yksittäiseen eteenpäin. Cornelius Lanczos figured this out in 1950 O(n) per iteration Cornelius Lanczos figured this out in 1950 Seitsemänkymmentäviisi vuotta edistystä siitä lähtien? Meillä on nyt Hutchinsonin jälkiarviointi, stokastinen Lanczosin neliö, satunnaistettu SVD. Voit saada spektrin tiheysarvioita, huippuluokan ominaisarvoja, tilanumeron rajoja - kaikki vähäpätöisillä laskentakustannuksilla. Työkalut kuten Tämä on jo todistettu ImageNet-asteikolla. Tänään. PyHessian PyHessian Joten miksi tämä ei ole PyTorchissa? Miksi se ei ole TensorFlowissa? Joten miksi tämä ei ole PyTorchissa? Miksi se ei ole TensorFlowissa? Joten miksi tämä ei ole PyTorchissa? Miksi se ei ole TensorFlowissa? Because the people who understand spectral theory are in math departments, writing papers nobody reads. The people building frameworks are shipping features that look good in demos. And the people training models are too busy babysitting loss curves to ask why they’re babysitting loss curves. The math exists. The engineering exists. The will to connect them? Apparently not. Seventy-five years. Still waiting… What These Numbers Actually Tell You Let’s make this practical, concrete, and — above all — visual, so you can build the right mathematical intuitions. Tehdään tästä käytännöllistä, konkreettista ja ennen kaikkea visuaalista, jotta voit rakentaa oikeat matemaattiset intuitiot. Katastrofin edellytysnumero The condition number κ (kappa) = λ_max / λ_min controls how hard your optimization problem actually is. Here’s what nobody tells you: gradient descent convergence scales as (κ-1)/(κ+1) per iteration. Tässä on se, mitä kukaan ei kerro sinulle: gradientti laskeutumiskerrokset (k + 1) ja (k + 1) (k + 1) ja (k + 1) ja iteraation kautta. Käännökset : noin 100 iteraatiota virheesi puolittamiseksi. Roughly 10k iterations for the same progress. κ = 10000? Ja κ = 10000 on käytännössä yleistä. Ei patologista. Ei harvinaista. tiistai. Mikä on korkea k Tykkäävätkö he? Tunteet Imagine rolling a marble down a valley. Nice round bowl? Marble rolls straight to the bottom. Done. Mutta korkea κ tarkoittaa, että laakso on rasvanpitävä slot-kanjonki: seinät ovat kilometriä korkeita, lattia tuskin näkyvissä. Marmori ei rullaa alas. Se pinballs pois seinistä. Vasen. Oikea. Vasen. Oikea. Polttava energia kulkee sivusuunnassa sen sijaan, että alas. Se on gradientti. Osoita täsmälleen, missä laskelma sanoo: jyrkimmän alaspäin. Ongelma on, "jyrkimmän alaspäin" pyrkii Älä laske lattiaa kohti ratkaisua. Kanjonin seinät Menetys pysähtyi 0,0847: ssä, sitten 0,0846: ssä, sitten 0,0847: ssä uudelleen? Sinä muokkaat oppimisnopeutta. Ei mitään. Sinä uhraat kumipää ML-jumalille varmasti. Ei mitään. Those training runs that plateau for hours? That’s high κ. Your optimizer isn’t broken. It’s doing exactly what you asked. What you asked is just geometrically insane. Olet polttamassa laskennallisen taistelun geometriaa, jonka kehys kieltäytyy tunnustamasta olemassa. The fix? Preconditioning. Toisen luokan menetelmät. Adaptiiviset optimoijat, jotka epäsuorasti arvioivat kaarevuutta. Matematiikka on olemassa. Se on ollut oppikirjoissa 1960-luvulta lähtien. Mutta ensin sinun täytyy tietää, että k on ongelma. Ohjauspaneelisi ei kerro sinulle, joten et koskaan kysy. Alla oleva kuva näyttää tarkalleen, mitä tapahtuu. Sama lähtökohta. Sama kohde. Yksi polku kestää ~100 iteraatiota. Toinen kestää ~10 000 - zigzagging pois kanjonin seinät while your GPU burns money. Sharp vs. Flat: Yleistäminen Prophecy Nyt puhutaan siitä — the eigenvalue magnitude |λ|_max. ε (epsilon) Tämä numero vastaa kysymykseen, jota jokainen ML-insinööri salaa pelkää: Oliko malli todella oppinut jotain, vai onko se vain muistanut testin? Tämä numero vastaa kysymykseen, jota jokainen ML-insinööri salaa pelkää: Did your model actually learn anything, or did it just memorize the test? Kuvittele kadonneet maisemat maaperänä. a on laaja laakso - voit vaeltaa ympäri ja korkeus tuskin muuttuu. on veitsen reuna - yksi väärä askel ja olet kaatumassa kuiluun. flat minimum sharp minimum Small ε = flat minimum = good news. When ε is small, your model found that wide valley. Production data comes in slightly different from training data: users type weird things, lighting changes, accents vary, and your model shrugs. Riittävän lähellä, sain tämän. Se on yleistämistä.Sitä sinä maksat. The GIF below shows what this looks like geometrically: Nyt käännä käsikirjoitus. What happens when ε is huge? When your eigenvalues are screaming large numbers? . Training loss looks perfect. Validation is “best run ever.” Well, when ε is large , your model has squeezed itself into a tiny, sharp crevice Kun e on large large , malli on puristanut itsensä pieneksi, teräväksi halkeamaksi Sitten todelliset tiedot saapuvat. Hieman erilainen sanamuoto. Hieman erilaiset kuvat. Hieman erilaiset asiat. Ja malli ei ja perform a bit worse It blows up: Luottamus menee hulluiksi Predictions turn random Your alert-log system explodes at 2 AM. 💀 Se on terävä vähimmäismäärä toiminnassa. Seinät ovat niin jyrkkiä, että pienin muutos lähettää tappioraketin. . brittle and faking it The GIF below shows the difference. Same horizontal shift. Wildly different outcomes. Press enter or click to view image in full size Kuten näette, tämä ei ole filosofiaa.Tämä on geometriaa, jota voit mitata. Your model that crushed the benchmark and died in production? It found a sharp minimum. The eigenvalues would have told you… But nobody checked. Saddle Points: The Silent Killer Now for — the negative eigenvalue count, #(λ < 0). This one’s sneaky. This one lies to your face. δ (delta) Your gradient hits zero. Sinun tappiokäyrä menee tasaiseksi. Kehyksesi tulostaa: ** ”konvergoitu”. \ Sinä rentoudut. But you’re not at an error minimum. You’re at a Saddle Pisteitä ! 💀 You’re at a Saddle Pisteitä Saddle Pisteitä A mountain pass where the terrain curves up in some directions and down in others. But you might say: \ No, dear reader. No. It only means you’re balanced on a ridge, not that you’ve reached anything useful. PyTorch osoittaa gradientin olevan nolla – eikö sen pitäisi tarkoittaa, että optimointi on tehty? How common are saddle points? Tehdään siis matemaattisesti. At any critical point, you can think of each eigenvalue as having a coin-flip chance of being positive or negative. For a true minimum, you need of them positive. The rough probability? One-half raised to the power of your parameter dimension. Kaikki For a million parameters, that’s 1/ 2^(10⁶). Sinulla on paremmat mahdollisuudet voittaa arpajaiset, kun salama iskee, kun haila pureutuu jalkaasi. True minima are statistical miracles. Hyvä uutinen: useimmat sadepisteet ovat epävakaita. SGD: n luontainen melu yleensä sammuttaa sinut lopulta. Huono uutinen: ”loppujen lopuksi” voi olla kolme viikkoa hukkaan heitettyä tietokonetta. Degeneratiiviset satulat – joissa omat arvot ovat lähellä nollaa – luovat tasangot, joissa gradientti kuiskaa puhumisen sijaan. δ > 0 kertoisi sinulle välittömästi. Yksi numero. Saddle tai ei. would tell you instantly. One number. Saddle or not. But your framework doesn’t compute it. δ > 0 The GIF below shows what this trap looks like: Gradient Flow -aikapommi Luulitko, että olemme valmiita? – Se vain pahenee. Sinun hermoverkkosi ei ole yksi toiminto. Se on toimintojen ketju - kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros kerros. Jokaisella kerroksella on Jacobian matriisi - osittaisten johdannaisten matriisi, joka ohjaa signaalien leviämistä. . The singular values of these Jacobians determine whether your gradients survive the journey or die along the way Jacobianien ainutlaatuiset arvot määrittävät, selviytyvätkö gradientit matkasta vai kuolevat matkalla. The gradient gets amplified at each layer. By the time it reaches the early layers, it’s not a gradient anymore — it’s a bomb. Exploding gradients. Your weights go to infinity. Training crashes. NaN city. Singular values > 1: Päinvastainen katastrofi. Gradientti murskataan jokaisella kerroksella. Kun se saavuttaa varhaiset kerrokset, se on pyöristysvirhe. Häviävät gradientit. Varhaiset kerrokset lakkaavat oppimasta. Ne jäätyvät, kun taas muu verkko teeskentelee harjoittelevansa. Singular values < 1: Goldilocks-vyöhyke. Gradientit virtaavat puhtaasti päästä päähän. Jokainen kerros oppii. Siksi orthogonal aloitus toimii. Siksi spektrin normalisointi on olemassa. Singular values ≈ 1: Mutta tässä on asia: nämä tekniikat löydettiin vahingossa ja niitä käytettiin bändin apuvälineinä. Kukaan ei valvo Jacobian spektria koulutuksen aikana. Kukaan ei katso yksittäisiä arvoja. Diagnoosi, joka kertoisi sinulle: Niitä ei yksinkertaisesti ole missään kaupallisessa ympäristössä. Layer 47 on valmis tappamaan gradienttivirran Layer 47 is about to kill your gradient flow 😁 Verkkosi voi verenvuodattaa sisäisesti, ja ohjauspaneeli ei näytä mitään. Katso se itse: Ja tässä olet: Todellinen ohjauspaneeli AI-kehyksesi puuttuu Tämä on ohjauspaneeli vakava AI-kehys pitäisi näyttää sinulle. Matemaattisesti lukutaitoinen koulutuslinja laskisi kevyitä spektridiagnostiikoita tarkastuspisteissä ja toimisi niihin: Hessian-tila-arvo ylittää kynnysarvon → vaihda ennalta ehdolliseen menetelmään. Jacobian-yksilölliset arvot poikkeavat 1:sta → sovelletaan spektrin normalisointia. Negatiiviset oma-arvot näkyvät → olet sadulla, häiritse pakenemista. Hessin ehdon määrä ylittää kynnysarvon Jacobian-yksilölliset arvot siirtyvät pois 1 Negatiiviset omat arvot näkyvät Tällä hetkellä mikään kaupallisesti saatavilla oleva tekoälykehys ei anna sinulle näitä perusarvojen ennustajia. Sen sijaan voit säätää oppimisnopeuksia ja toivoa, että... Why Nobody Fixed This Kolme syytä : Kun heittää enemmän laskentaa ongelma työ, kukaan ei kyseenalaista perusteet. Tämä on väliaikainen. skaalautuminen lakeja tasangolla. Kun he tekevät, teollisuus yhtäkkiä tarvitsee matematiikkaa se ei koskaan vaivautunut oppimaan. Scaling obscures mathematical sins. Ihmiset, jotka ymmärtävät spektriteoriaa työskentelevät soveltavan matematiikan osastoissa ratkaisemaan päinvastaisia ongelmia. Ihmiset, jotka rakentavat AI-kehyksiä, ottivat optimoinnin ja tilastotiedot. Disciplinary silos. Oikean spektrin valvonnan toteuttaminen vaatii infrastruktuuria, jota kukaan ei halua rakentaa. Abstraction debt. Laki tulee kahteen Here’s what’s missing in every production framework: Teollisuus on investoinut 100 miljardia dollaria AI: n skaalaamiseen. Matematiikan perusteet ovat edelleen epätäydellisiä. Every unexplained training failure, every generalization anomaly, every model that worked in the lab and died in production — these are symptoms of mathematical pathologies that your tools cannot diagnose. Mitä voit tehdä nyt mennä jopa näiden suurten AI-yritysten ulkopuolelle? Aloita tästä: Opi, mitä Hessin omat arvot tarkoittavat tietylle arkkitehtuurillesi Tarkkaile tilan numeroita koulutuksen aikana - jopa raaka-arviot auttavat before you ship — PyHessian exists, use it Check for sharpness when loss plateaus — you might be at a saddle, not a minimum Question everything The math exists. It’s been waiting since 1950. The only question is whether you’ll learn it before your next production failure teaches you the hard way. Oletko utelias AI: n piilossa olevasta puolesta?Lue lisää sivuiltani täältä Oletko utelias AI: n piilossa olevasta puolesta?Lue lisää sivuiltani täältä