Három szám. Ez minden, amire az AI-nak szüksége van a munkához

Ha nem érted az önértékeléseket, nem érted az AI-t Mi lenne, ha azt mondanám, hogy három szám - csak három - megjósolhatja, hogy az AI működni fog-e, vagy katasztrofálisan meghibásodik? Nincs új építészet. Nincs átalakítás. Nincs infrastruktúra felújítás. Matematika, amely 1950 óta ül a tankönyvekben, és arra vár, hogy valaki ellenőrizze. Ez a három szám megragadta volna: Az Ön Tesla szelleme ok nélkül fékez. Your Tesla phantom braking for no reason. A GPT-4 olyan bírósági ügyre hivatkozik, amely nem létezik: egy szankcionált ügyvéd nyújtotta be. A GPT-4 olyan bírósági ügyre hivatkozik, amely nem létezik: egy szankcionált ügyvéd nyújtotta be. A modell, képzett három hétig, gyönyörű veszteség görbe, szállított prod, azonnal esik az arcára. Your model, trained for three weeks, beautiful loss curve, shipped to prod, immediately falling on its face. Ugyanazok az okok, minden alkalommal. A három számot mindenki figyelmen kívül hagyja Nobody tells you about them. Not your framework. Not your coursework. Not the documentation, Függetlenül attól, hogy a következtetés stabil vagy hallucináló lesz. Függetlenül attól, hogy a minimumod valóságos vagy csapda. Bár megjósolják, hogy az edzésed működik-e, vagy felrobban az arcodban Bár megjósolják, hogy az edzésed működik-e, vagy felrobban az arcodban : Az optimalizáló elpazarolja a számítógépet? Ez a szám azt méri, hogy mennyire „kiterjedt” a veszteséges táj. A számítógép 90% -át oldalirányban égeted el, nem pedig lefelé (a hiba minimum felé) 1. Feltételes szám κ (λ_max / λ_min) A nagy k a kanyonot jelenti. Feltételes szám κ (λ_max / λ_min) Condition number κ (λ_max / λ_min) A nagy k a kanyonot jelenti. : Did your model actually learn — or just memorize? Read on, and you’ll find a Az alábbi GIF jobban megmagyarázza, mint egy egész sor egyenlet. 2. Saját érték magnitúrája ε (̧λ_max) Szép Saját érték magnitúrája ε (̧λ_max) Saját érték magnitúrája ε (̧λ_max) 3. Lehet, hogy meg van győződve arról, hogy az AI-keretrendszerből származó gradiens elegendő ahhoz, hogy befejezze a fényes új hálózat képzését. : Negatív sajátérték szám δ (#λ 0 Az alábbiakban egy animált grafikát láthat, amely tisztázza azokat a kérdéseket, amelyeket valószínűleg most tesz fel magának. És mégis – higgyétek el vagy ne higgyétek el – ez Régi matematika az az Ez a matematika 1950 óta létezik, mielőtt bárki is álmodott volna egy neurális hálózatról. Hetvenöt éves matematikusok kiabálnak az ürességbe. És mégis – most, ma, ahogy ezt olvasod – nem a PyTorch-ban. nem a TensorFlow-ban. nem a JAX-ban. nem a Keras-ban. nem bármely szabványos képzési csővezetékben, több millió dollárt égetve. Three numbers that would tell you everything. Hidden in plain sight. A világ legnagyobb mesterséges intelligencia laboratóriumai? figyelik a veszteséggörbét. Az OpenAI figyelmen kívül hagyja őket, a Google kihagyja őket, az Anthropic nem is tudja, hogy léteznek. Az OpenAI figyelmen kívül hagyja őket, a Google kihagyja őket, az Anthropic nem is tudja, hogy léteznek. Olvass tovább, még nem láttad a legjobbat! Kíváncsi az AI rejtett oldalára?Tudjon meg többet az oldalamon itt Kíváncsi az AI rejtett oldalára?Tudjon meg többet az oldalamon itt A három szám mindenkinek hiányzik So you’ve met κ, ε, and δ. Three numbers that predict everything. Three numbers that have existed since your grandparents were young. Now ask yourself: where are they? Nem a képernyőn, nem a naplóiban, nem a billió dolláros AI-iparban. Ezek a számok nem elméletek, hanem diagnosztikai panelek, amelyeknek létezniük kell... de nem. Ehelyett itt van, amit a legnépszerűbb AI keretrendszerek - PyTorch, TensorFlow, JAX, Keras - valójában megadnak neked: Loss value ✓ Gradient direction ✓ Tanulási arány ✓ Ez az egész műszerfal. - Ez az egész műszerfal. Három szám – de nem a helyes három. Nem κ (feltételes szám). Nem ε (eigenvalue nagyság). Nem δ (negatív eigenvalue szám). κ κ ε ε δ δ És ez nem csak a keretrendszered. Az OpenAI belső eszközei? Ugyanaz a vak pont. A Google infrastruktúrája? Ugyanaz a szakadék. Az Anthropic képzési csővezetéke? Ugyanaz a hiányzó panel. Az egész iparág ugyanazt a törött műszercsoportot repíti. A mai AI képzés olyan, mint egy 747-es repülés sebességmérővel, iránytűvel és vibrációval. A mai AI képzés olyan, mint egy 747-es repülés sebességmérővel, iránytűvel és vibrációval. Training AI today is like flying a 747 with a speedometer, a compass, and vibes. Nagy - ez azt jelenti, hogy a hiba csökken, a képzés jól néz ki. De Vajon a modell megtalálja a valódi megoldást, vagy csak megjegyzi a zajt és ásja magát egy lyukba, amelyből soha nem fog megszökni? why A saját értékek megmondanák. a kedvenc AI keretrendszerének eszköztárát nem fogja. A 2.b. ábra ezt egyértelművé teszi: Where those three numbers come from : . It encodes the complete curvature of your loss landscape. Every canyon, every ridge, every flat plateau. It’s all there. Belül élnek, amit a hessziaiaknak hívnak a veszteségfunkció második származékos mátrixát És itt van az abszurd rész: a hessziai teljesen számítógépes. ott ül, diagnosztikai adatokat kiabál, és senki sem néz rá. És itt van az abszurd rész: a hessziai teljesen számítógépes. ott ül, diagnosztikai adatokat kiabál, és senki sem néz rá. Íme, hogyan működik ez: Look at the two boxes in the middle of the figure. On the left: what PyTorch shows you. Loss looks good. Gradient near zero. Learning rate set. Green light. Ship it. A jobb oldalon: mi , és feltárása. állapotszám a tetőn keresztül. éleslét a diagramokon. Két negatív sajátérték. Ön nem a minimum: . 💀 κ ε δ you’re stuck at a saddle point pretending to be done κ ε δ Ugyanazok a számok, ugyanazok a pillanatok, ellentétes következtetések. Ugyanazok a számok, ugyanazok a pillanatok, ellentétes következtetések. Ugyanazok a számok, ugyanazok a pillanatok, ellentétes következtetések. OpenAI doesn’t compute this. Google doesn’t compute this. Senki sem fut egy több százezer dolláros havi GPU klaszter ellenőrzi a saját értékeket. Senki sem fut egy több százezer dolláros havi GPU klaszter ellenőrzi a saját értékeket. Látják a veszteséggörbét, és igazad van... imádkozol! But the Hessian is Too Heavy! Ez az, ahol valaki a Google-tól felemeli a kezét. Egy milliárdos paraméter-modell esetében ez egy milliárdszor milliárd. – Nem tudod ezt kiszámítani. Egy milliárdos paraméter-modell esetében ez egy milliárdszor milliárd. – Nem tudod ezt kiszámítani. Correct. And completely irrelevant. You don’t need the full matrix. You never did. Egy magyar fizikus — vissza, amikor a „számítógép” vákuumcsövekből és rögeszmés ujjbegyűjtésből álló helyiséget jelentett. módszere a domináns sajátértékeket iteratív mátrix-vektortermékek felhasználásával húzza ki. Alapvetően ingyenes, összehasonlítva egy előremutatóval. Cornelius Lanczos figured this out in 1950 O(n) per iteration Cornelius Lanczos figured this out in 1950 Seventy-five years of progress since then? We now have Hutchinson’s trace estimator, stochastic Lanczos quadrature, randomized SVD. You can get spectral density estimates, top-k eigenvalues, condition number bounds — all at negligible computational cost. Eszközök, mint Ez már bizonyítja, hogy ez működik a ImageNet skálán. ma. Püspöki Püspöki So why isn’t this in PyTorch? Why isn’t it in TensorFlow? Why isn’t it in JAX? Miért nem a PyTorch? miért nem a TensorFlow? miért nem a JAX? Miért nem a PyTorch? miért nem a TensorFlow? miért nem a JAX? Because the people who understand spectral theory are in math departments, writing papers nobody reads. The people building frameworks are shipping features that look good in demos. And the people training models are too busy babysitting loss curves to ask why they’re babysitting loss curves. A matematika létezik. a mérnöki létezik. az akarat, hogy összekapcsolják őket? Seventy-five years. Still waiting… Mit mondanak neked ezek a számok valójában Praktikus, konkrét és – mindenekelőtt – vizuális legyen, hogy a megfelelő matematikai intuíciókat kiépíthesse. Praktikus, konkrét és – mindenekelőtt – vizuális legyen, hogy a megfelelő matematikai intuíciókat kiépíthesse. The Condition Number Disaster The condition number κ (kappa) = λ_max / λ_min controls how hard your optimization problem actually is. Here’s what nobody tells you: gradient descent convergence scales as (κ-1)/(κ+1) per iteration. Itt van, amit senki sem mond el neked: a fokozatcsökkenés konvergencia skálák, mint (például k+1) (például k+1) Az iterációra. A fordítás: kb. 100 ismétlés a hiba felére csökkentéséhez. kb. 10 000 iteráció ugyanazon haladásért. És κ = 10000 gyakori a gyakorlatban. nem patológiás. nem ritka. kedden. Tehát mi teszi a magas k Hát úgy? Érzés Képzeld el, hogy egy márványt tekercselsz egy völgybe. Szép kerek tál? A márvány egyenesen az aljára tekercseli. De a magas κ azt jelenti, hogy a völgy egy borotva vékony slot kanyon: a falak egy mérföld magas, a padló alig látható. A márvány nem teker lefelé. Ez szúrja le a falakat. balra. jobbra. balra. jobbra. égő energia megy oldalra helyett lefelé. Ez a gradiensed. Pontosan oda mutatva, ahol a kalkulus azt mondja: a legmeredekebb lejtő. A probléma az, hogy a „legmeredekebb lejtő” a Ne a padlót a megoldás felé! Canyon falak Loss stuck at 0.0847, then 0.0846, then 0.0847 again? You tweak the learning rate. Nothing. You sacrifice a rubber duck to the ML gods🚮 . Nothing. Those training runs that plateau for hours? Ez a nagy k. Your optimizer isn’t broken. It’s doing exactly what you asked. What you asked is just geometrically insane. You’re burning compute fighting geometry your framework refuses to acknowledge exists. The fix? Előfeltételek. Másodrendű módszerek. Alkalmazkodó optimalizálók, amelyek implicit módon becsülik a görbületet. A matematika létezik. Az 1960-as évek óta a tankönyvekben van. But first, you’d need to know κ is the problem. A műszerfal nem fogja megmondani, így soha nem fog kérdezni, és a számlázási számlája folyamatosan emelkedik. Az alábbi ábra pontosan azt mutatja, hogy mi történik. ugyanaz a kiindulási pont. ugyanaz a cél. Az egyik út ~100 iterációt vesz igénybe. a másik ~10000 - a kanyon falaiból zigzagozva while your GPU burns money. Sharp vs. Flat: Az általánosítás próféciája Most beszéljünk a — the eigenvalue magnitude |λ|_max. ε (epsilon) Ez a szám megválaszolja azt a kérdést, amit minden ML mérnök titokban fél: Did your model actually learn anything, or did it just memorize the test? Ez a szám megválaszolja azt a kérdést, amit minden ML mérnök titokban fél: Did your model actually learn anything, or did it just memorize the test? Képezze el a veszteséges tájat terepként. a egy tágas völgy - körbejárhatod, és a magasság alig változik. is a knife-edge ridge — one wrong step and you’re tumbling into the abyss. flat minimum sharp minimum Small ε = flat minimum = good news. A termelési adatok kissé eltérnek a képzési adatoktól: a felhasználók furcsa dolgokat írnak be, a megvilágítás változik, a hangsúlyok változnak, és a modell ráncosodik. Elég közel van, megkapom ezt. That’s a generalization. That’s what you’re paying for. The GIF below shows what this looks like geometrically: Most fordítsa le a forgatókönyvet. Mi történik, ha ε óriási? amikor saját értékeid nagy számokat kiabálnak? Az edzés elvesztése tökéletesnek tűnik.A validálás a „legjobb futás valaha”. Well, when ε is large , your model has squeezed itself into a tiny, sharp crevice Ha az e large Széles , a modell egy apró, éles repedésbe szorította magát Then real data arrives. Slightly different wording. Slightly different images. Slightly different anything. And the model doesn’t A . Kicsit rosszabbul csinálják It blows up: A bizalmi pontszámok őrültek Predictions turn random A figyelmeztető napló rendszer 2 órakor felrobban. Ez egy éles minimum a cselekvésben. A falak olyan meredekek, hogy a legkisebb elmozdulás a veszteséget rakétázza. . brittle and faking it Az alábbi GIF megmutatja a különbséget. ugyanaz a vízszintes váltás. Nyomja meg vagy kattintson a teljes méretű kép megtekintéséhez As you see, this is not philosophy. This is geometry you can measure. Az Ön modellje, amely megtörte a referenciamutatót és meghalt a termelésben? Éles minimumot talált.A sajátértékek megmondták volna... De senki sem ellenőrizte. Saddle Points: A csendes gyilkos Now for - a negatív sajátérték szám, #(λ < 0). Ez az egyik csúnya. Ez az egyik az arcodra esik. δ (delta) A gradiensed nullára rúg. A veszteségi görbe lapos lesz. Your framework prints: **“converged.” \ You relax. But you’re not at an error minimum. You’re at a saddle point ! 💀 You’re at a Székely Pont Székely Pont Hegyi átjáró, ahol a terep egyes irányokban felfelé, másokban lefelé görbül. De azt mondhatnád: Nem, kedves olvasó.Nem. Ez csak azt jelenti, hogy kiegyensúlyozott vagy egy sziklán, nem azt, hogy valami hasznosat elértél. PyTorch shows my gradient is zero — shouldn’t that mean the optimization is done? Mennyire gyakoriak a saddle pontok? Tegyük meg a matematikát. At any critical point, you can think of each eigenvalue as having a coin-flip chance of being positive or negative. For a true minimum, you need Ezek közül pozitív. A durva valószínűség? félig emelkedett a hatalom a paraméter dimenzió. Összes Egy millió paraméter esetében ez 1/2^ (106) érték. Jobb esélye van arra, hogy megnyerje a lottót, miközben villám csapódik meg, miközben egy cápa megharapja a lábát. True minima are statistical miracles. A jó hír: a legtöbb nyeregpont instabil.Az SGD sajátos zajja általában végül elindítja Önt. A rossz hír: „végső soron” három hét elpazarolt számítástechnika lehet. Degenerált nyeregek – ahol a saját értékek nullához közelednek – olyan síkságokat hoznak létre, ahol a gradiens suttog, ahelyett, hogy beszélne. would tell you instantly. One number. Saddle or not. But your framework doesn’t compute it. δ > 0 Azonnal megmondanám neked. Egy szám. Szék vagy nem. De a keretrendszered nem számít. δ > 0 Az alábbi GIF megmutatja, hogy néz ki ez a csapda: A Gradient Flow időbomba Oh, you thought we were done? It gets worse. Your neural network isn’t one function. It’s a chain of functions — layer after layer after layer. And gradients have to flow backward through every single one during training. Like a game of telephone, except each person might whisper too quietly or scream too loudly. Each layer has a Jacobian matrix — the matrix of partial derivatives that governs how signals propagate. . The singular values of these Jacobians determine whether your gradients survive the journey or die along the way The singular values of these Jacobians determine whether your gradients survive the journey or die along the way The gradient gets amplified at each layer. By the time it reaches the early layers, it’s not a gradient anymore — it’s a bomb. Exploding gradients. Your weights go to infinity. Training crashes. NaN city. Singular values > 1: Az ellentétes katasztrófa. A gradiens minden egyes rétegben megszakad. Amint eléri a korai rétegeket, ez egy kerekítési hiba. Eltűnő gradiensek. A korai rétegek megállnak a tanulással. Fagyasztják, míg a hálózat többi része úgy tesz, mintha edzene. Singular values < 1: Goldilocks zóna. A gradiensek tiszta módon áramlanak a végétől a végéig. Minden réteg tanul. Ezért működik az orthogonal initialization. Ezért létezik a spektrális normalizáció. Singular values ≈ 1: De itt van a dolog: ezeket a technikákat véletlenül fedezték fel, és band-segédként alkalmazzák. Senki sem figyeli a Jacobian spektrumot a képzés során. Senki sem figyeli az egyedi értékeket. A diagnózis, amely megmondaná: Egyszerűen nem létezik semmilyen kereskedelmi környezetben. A 47. réteg hamarosan megöli a gradiensáramlást A 47. réteg hamarosan megöli a gradiensáramlást A hálózat belsőleg vérzik ki, és a műszerfal nem mutat semmit. See it for yourself: És itt megy: A valódi vezérlőpult az AI keretrendszer hiányzik Ez az a dashboard, amelyet egy komoly AI keretrendszernek meg kell mutatnia. Egy matematikailag írástudó képzési lánc kiszámítja a könnyű spektrális diagnosztikát a ellenőrző pontokon, és rájuk reagál: A hesszi állapotszám meghaladja a küszöbértéket → átvált egy feltételezett módszerre. → apply spectral normalization. Jacobian singular values drift away from 1 Negatív sajátértékek jelennek meg → egy nyeregben vagy, megzavarva, hogy elmenekülj. Hessian condition number exceeds a threshold Jacobian singular values drift away from 1 A negatív értékek megjelenése Jelenleg egyetlen kereskedelmi forgalomban kapható AI keretrendszer sem adja meg ezeket az alapvető sajátérték-előrejelzőket. Ehelyett kézzel szabályozza a tanulási arányokat, és reméli, hogy... Why Nobody Fixed This Három ok: Amikor több számítógépet dobunk a probléma munkájába, senki sem kérdőjelezi meg az alapokat. Ez ideiglenes. A skálázási törvények magaslat. Amikor megteszik, az iparnak hirtelen szüksége lesz a matematikára, amit soha nem zavart megtanulni. Scaling obscures mathematical sins. Azok az emberek, akik megértik a spektrális elméletet, az alkalmazott matematikai osztályokban dolgoznak fordított problémák megoldásában.Azok az emberek, akik az AI keretrendszereket építették, optimalizálást és statisztikát végeztek. Disciplinary silos. A megfelelő spektrális monitorozás végrehajtása infrastruktúrát igényel, amelyet senki sem akar építeni. Abstraction debt. Kettővel jön a törvény Íme, mi hiányzik minden termelési keretből: Az ipar 100 milliárd dollárt fektetett be az AI méretezésébe. A matematikai alapok még mindig hiányosak. Minden megmagyarázhatatlan képzési hiba, minden generalizációs anomália, minden modell, amely a laboratóriumban dolgozott, és a termelésben halt meg - ezek a matematikai patológiák tünetei, amelyeket az eszközök nem tudnak diagnosztizálni. Mit tehetsz most, hogy túlmutatj ezen a nagy AI-cégeken? Kezdjük itt: Ismerje meg, mit jelentenek a hesszi sajátértékek az Ön sajátos építészetéhez Figyelemmel kíséri az állapotszámokat a képzés során – még a nyers becslések is segítenek before you ship — PyHessian exists, use it Check for sharpness Kérdezd meg mindent, amikor a veszteség plateaus - lehet, hogy egy nyeregben, nem egy minimális A matematika létezik. 1950 óta várja. Az egyetlen kérdés az, hogy meg fogod-e tanulni, mielőtt a következő termelési kudarc megtanítaná a kemény utat. Kíváncsi az AI rejtett oldalára?Tudjon meg többet az oldalamon itt Kíváncsi az AI rejtett oldalára?Tudjon meg többet az oldalamon itt