AI تل په ورته دیوالونو سره مخنیوی کوي یا شاید دوی کوي، او یوازې د خپل موټرونو په 60 مایل هره ساعت کې interprative رقص روټینډونو ترسره کولو وګورئ. Apparently, not even Tesla - with its 1.4 Trillion valuation and army of PhDs - knows about this math. په هرصورت، دلته د ټولو لوی ټایټونه چې تاسو په یوټیوب کې وګورئ: The Tesla Self-Driving Blooper Reel: د The car slams the brakes for a shadow. Because apparently, shadows are the #1 threat to highway safety in the 21st century. - د افسانو د بریښنا د افسانو د بریښنا د افسانو د بریښنا د په بشپړه کچه په ګوته کې راځي، بیا "OH SHIT A CURVE!" او له هر ځای څخه د کوچني اغېز څخه ډډه کوي، د هرڅوک لپاره د کمر څخه بهر. - د Surprise Party Turn د Surprise Party Turn د Surprise Party Turn د د کنټرول تنظیماتو ډیری سخت دی چې تاسو فکر کولی شئ چې د موټر د وجودي بحران لري. چپ، چپ، چپ، چپ ... دا د چلولو نه ده، دا دی د سټیټ سټیشن لاندې - د ساتنې Shuffle د vibrating د ساتنې Shuffle د ساتنې Shuffle د "Why Did It Do That?" - هغه څه کوي چې د AI څیړونکي هم چې د لیګونو وګورئ، یوازې د "ګریډینټ ډیزاین، احتمالا" راټول کوي. - د The “Why Did It Do That?” د "چې دا دا کار کوي؟" د "چې دا دا کار کوي؟" “gradient descent, probably. “gradient descent, probably. د AI مخکښ سایټ په اړه دلچسپي؟ د José Crespo، PhD پاڼه کې نور کشف کړئ. د حل چې هیڅکله کار نه کوي ټیسلا کولی شي دا حل کړي - په اسانۍ سره - د ثانوي derivatives په کارولو سره (Hessian-vector محصولات، یا HVP د ګرمانو لپاره). د Google، Meta، OpenAI، او په عمده توګه هر شرکت سره د "AI ستراتیژۍ" PowerPoint ډک کولای شي. خو دوی نه دي. د لاندې جدول وګورئ - د نمونې په نظر کې؟ انتظار - دا د مختلفو ستونزو دي، نه؟ نه دقیقا. دوی مختلف علامات دي، مګر ورته ناروغۍ. دوی ټول د ریاضی کاروي چې کولی شي ځواب "د هغه لاره چې زه باید لاړم؟" هغه لاره چې زه باید لاړم but not “ ” How sharply is this about to change? نه نه » ” دا څومره د بدلون لپاره چمتو ده؟ دا څومره د بدلون لپاره چمتو ده؟ It’s like asking a GPS for directions but never checking if there’s a cliff ahead. د ریښتیني سبب: ستاسو د لوی لویانو د لویانو د محاسبه محاسبه As said, in the case of Tesla what is happening is that their cars are reacting to what’s happening right now, not anticipating what’s about to happen. نه د هغه څه چې په تیرو کې به ترسره شي. نه د هغه څه چې په تیرو کې به ترسره شي. دا لکه څنګه چې یوازې د اوسني بورډ پوهه وګورئ - نه پلان، نه ستراتیژۍ، یوازې " زه یو ټوټه وګورئ، زه یو ټوټه حرکت وکړم." Chess players call this “beginner level.” Tesla calls it “Full Self-Driving.” د شطرنج لوبغاړي دا د "د پیل کولو کچه" نومول کوي. ټیسلا دا د "د بشپړ ځان چلولو" نومول کوي. د تشخیص لپاره چمتو؟ ټیسلا انجنیران، لکه د سیلیکون ویلی کې د ټولو خلکو په څیر، اوس هم د 19th Century د محدودیت پر بنسټ د محاسبه کاروي - د Netflix په ټیلګراف ماشین کې سټراییم کولو په ریاضیي برابر. په داسې حال کې، د حل د 60 کلونو لپاره په سټاک کې وي: . dual/jet numbers په واقعیت کې، هغه څوک چې د دې "Wakko، انګلیسي ریاضی" په اړه فکر کوي چې دوی په پوهنتون کې د CS پروګرامونو کې نه زده کوي؟ او په هرصورت، د دې hyperreal-related algebras (ډول او جټونه) د دوهم derivatives (HVP) د دوهم لومړنۍ نظم operators (JVP VJP) په ښکلي ترکیب له لارې د کمپیوټرۍ په کمښت عملیاتو (HVP) کړي. او په هرصورت، د دې hyperreal-related algebras (ډول او جټونه) د دوهم derivatives (HVP) د دوهم لومړنۍ نظم operators (JVP VJP) په ښکلي ترکیب له لارې د کمپیوټرۍ په کمښت عملیاتو (HVP) کړي. او په هرصورت، د دې hyperreal-related algebras (ډول او جټونه) د دوهم derivatives (HVP) د دوهم لومړنۍ نظم operators (JVP VJP) په ښکلي ترکیب له لارې د کمپیوټرۍ په کمښت عملیاتو (HVP) کړي. ایا تاسو به زما په اړه خبرې وکړئ ... چې د "سودو معياري" h-limit محاسبه دا یو ستونزه کوي، په داسې حال کې چې دوه ګوني / جټونه دا بیلابیلو کوي ... چې د سنګاري h-limit محاسبه سره د ډیرو Ivy-League کورسونو په توګه د ګولډن معياري سره د دوه ګوني / جټ شمیره بیلابیلو ده، کوم چې زموږ د اوسني AI کې د دې ډیری ستونزو سره تړاو لري؟ د H-limit محاسبه دوه ګوني / Jets د معمولي h-limit محاسبه په حسابولو سره کمپیوټریال غیرقانوني trivial with dual/jet numbers, بله، په حقیقت کې دا. And it gets worse. د Hyperreal انقلاب: ستاسو د محاسبه پروفیسور تاسو ته هیڅکله دا نه وايي د calculus چې تاسو په کالج کې زده کړه - هغه چې تاسو د مختلفو مساواتونو، د غوره کولو نظریه، او ماشین زده کړې کورسونو له لارې ترلاسه کړ - دا یوازې . isn’t wrong incomplete دا لکه څنګه چې د ارمیتیک زده کړئ مګر هیڅکله نه زده کړئ چې ډله کولو یوازې تکرار شوي شمیره ده. تاسو کولی شئ په هرصورت د ریاضی کار وکړئ، مګر تاسو دا په سخت ډول کار وکړئ. Here’s the specific problem: Traditional calculus (the h-limit approach): f'(x) = lim[h→0] (f(x+h) - f(x)) / h This defines derivatives لکه محدودیتونه - کوم چې معنی لري: محدودیتونه Mathematically سخت ✅ د نظریاتو ثابتولو لپاره ښه 🔸 د لومړني derivatives په پرتله هر څه لپاره د کمپیوټیکي نارینه د لومړي derivative په پرتله هر څه لپاره د کمپیوټریکي نارینه : ولې؟ ځکه چې د دویمه derivative محاسبه کولو لپاره، تاسو باید د محدودیت محدود کړئ ولې؟ limit of a limit f'(x+h) = lim[h'→0] (f(x+h+h') - f(x+h)) / h' د ځان د کمپیوټر ته اړتيا لري: f'(x+h) f'(x+h) = lim[h'→ 0] (f(x+h+h') - f(x+h)) / h' either you end up with او دوه ګام اندازه چې غیر ثابته تبادله کوي، یا تاسو د چې د پړاو اندازه او شور ته ډیر حساس دي. په هر دوو صورتونو کې تاسو ، نو د دوو لومړني پارامترونو ( ) د په یوه حقیقي دوهم derivative - تاسو په ځای کې . So, summing up: nested limits (د H، H′) higher-order stencils lose derivative structure JVP → VJP don’t compose rebuilding guesses carrying derivatives (د H، H′) د تیسری derivative لپاره؟ use even higher-order stencils. Three nested limits or یا یا نږدې k layers په پراخه کچه سټینټونه کاروي - ، truncation د stencil ترتیب پورې اړه لري، او تاسو هم ، نو JVP→VJP به په FD پایپ کې د HVP نه جوړوي. For the k-th derivative: یا noise blows up as O(h^-k) lose derivative structure So your self-driving car keeps crashing against sun-set lit walls. او د GPT-5 په اړه 1.8 تریليون پارامترونه؟ Computational impossibility. Sharp زده کونکي به په یاد ولرئ: "نه، که موږ د فورمه f پوه شو، نو موږ کولی شو یوازې د f' او f' تجارتي محاسبه؟ چرا موږ د دې محدود یا دوه شمیره څه ته اړتيا لري؟" f د F» د F» Great question! Here’s why that doesn’t work for neural networks: د ستونزو: نوري شبکې سیلیکونونه دي کله چې تاسو یو ساده فورمې لیکل کړئ، تاسو کولی شئ تجارتي محاسبه کړئ: # ساده مثال - تجارتي derivatives ښه کار کوي f(x) = x² + 3x + 5 f'(x) = 2x + 3 # په اسانۍ سره د لاس له خوا د جوړولو f''(x) = 2 # حتی اسانه But a neural network with 1.8 trillion parameters looks like this: ف(x) = σ(W175·σ(W174·σ(...σ(W2·σ(W1·x))...))) کله چې: - هر 'W' د میلیارده پارامترونو سره یو مټریکس دی - هر 'σ' د غیر لاینری فعاليت فعالیت دی - د ډیری layers لري (GPT-style) - The composition is dynamically computed during runtime You literally cannot write down the analytic form of f'(x) because: 1. The function changes every time you update parameters (every training step) 2. دا ډیر لوی دی چې په نمونې توګه بیان شي 3. دا د میلیارده نښلیدو مرکبونه لري ## چرا د سنګاري محاسبه دلته ناکام کیږي د h-limit فورمول: f''(x) = lim[h→0] (f'(x+h) - f'(x)) / h اړتيا لري چې evaluating f' (x + h) '، کوم چې معنی لري: f'(x+h) = lim[h'→0] (f(x+h+h') - f(x+h)) / h' And here’s the trap: (the function is too complex) You can’t compute f' analytically نو تاسو دا د محدود فرقونو (د h محدود) په کارولو سره راټول کړئ اوس تاسو اړتیا لري f' (x + h) لپاره د دوهم derivative نو تاسو د بل محدود فرق په کارولو سره (د ګام اندازه h' سره) aproximate چې د محدود فرقونو په کارولو سره راټول کړئ د تاسو د تبادلې تبادلې تبادلې - . Result: errors compound catastrophically د مخکښ لوستونکي کولی شي د اعتراض په پایله کې ونیسئ: "نه موږ کولی شو د SymPy یا Mathematica په څیر یو څه کاروئ چې نمونې په نمونې توګه محاسبه کړئ؟" In theory, yes. In practice, we face a similar problem. For a 1.8 trillion parameter model!: د f' لپاره د نمونوي بیان به د نمونوي ځان څخه لوی وي د کمپیوټر دا به د کلونو واخلي د ذخیره کولو لپاره دا به د موجودې څخه زیات یادښت ته اړتيا لري په ساده توګه دا به د کمپیوټري غیرقانوني وي. حتی د کوچني 3 کچه شبکې لپاره د 1000 نوريونونو په هر کچه: Example: د نمونوي F' ځمکه په میلیونه کچه. Symbolic jumps to the . f'' billions of terms د ودې د عمده / پراخه سره ترکیب شوی دی؛ د عمده subexpression ټریکونه تاسو ته کافی نه بچوي. Forget it. For hundred of layers? clear now? موږ د AI کمپیوټر لپاره زموږ د Hyperreals خوښۍ ته راځي او وګورئ چې کله چې hyperreals ورته سټینرونو سره مخنیوی شي: What Dual/Jet Numbers Do Differently: Automatic Differentiation دوه کچه د محدودیتونو په هر ډول کاروي. په عوض، دوی: په آرټیمیک کې د مختلفو قانونونو کوډ د ځانګړي شمیره چې د derivative معلوماتو له خوا د f د ارزښت derivatives له لارې د قواعد پیژندنه arithmetic k-jets له خوا د کاري کاري کاري کاري کاري کاري کاري کاري کاري کاري (nilpotent ε^k+1=0)، نو د لوړ کاري کاري derivatives په یوه پیسې. Jets generalize this. fall out The calculus rules (power rule, chain rule, etc.) are , not applied symbolically! So you get all the advantages of analytical solution without using them! Here’s the key: built into the jet arithmetic operations د محاسبه قواعد (د قدرت قواعد، د زنجیره قواعد، او داسې نور) دي , not applied symbolically! So you get all the advantages of analytical solution without using them! Here’s the key: built into the jet arithmetic operations د 3 اصلي اختلافات Calculus with Symbolic Rule Application ( impractical at modern AI scale) Process: د فابريکې په توګه: f(x) = x3 د بریښنا قانون یادونه: d/dx[xn] = n·xn−1 دا په نمونې ډول کارول: f'(x) = 3x2 د دوو فورمولونو په جدي ډول ذخیره کړئ Must build the entire derivative expression — exponential memory explosion. For neural networks: د سنګاري h-Limit Calculus: د شمولیت وړاندیز Process: Choose a step size h (guesswork) د ارزښت: (f(x+h) – f(x))/h د بریښنا سره یو Aproximation ترلاسه کړئ Problems: Not exact (always has truncation or roundoff error) کولی شي په پاکیزه توګه جوړ شي Breaks down at higher orders Dual / Jet Numbers Algebra: سره Augmented Arithmetic (د عصري AI کچه عملی) Process: د شمیره سیسټم د ε سره پراختیا کړئ چې ε2 = 0 د f په (x + ε) کې د دې ارقامیک استعمال کړئ د derivatives په اتوماتيک ډول د ε-coefficients په توګه ښيي د شمیره سیسټم پراختیا ε2 = 0 No expression built — just evaluate once with special numbers. Linear memory scaling. For neural networks: How It Actually Works: The Binomial Magic with dual numbers Let’s see as a toy example how the power rule emerge without applying any calculus: Example: compute derivative of f(x) = x³ Step 1: Evaluate at augmented input f(x + ε) = (x + ε)³ (د ترکیبونه، نه calculus) Step 2: Expand using binomial theorem (x + ε)³ = x³ + 3x²ε + 3xε² + ε³ (د 2 = 0) Step 3: Apply nilpotent algebra = x³ + 3x²ε + 0 + 0 = x³ + 3x²ε Step 4: Read the dual number x³ + 3x²ε = (x³) + ε·(3x²) ↑ ↑ value derivative The derivative f’(x) = 3x² emerged through: Binomial پراختیا (Algebra) Nilpotent simplification (ε² = 0) Coefficient لوستلو NOT through: ❌ Power rule application ❌ h-limit formula د نمونوي فرق You don’t apply the power rule — . you let binomial expansion reveal it You don’t apply the power rule — . you let binomial expansion reveal it You don’t apply the power rule — . تاسو اجازه ورکړئ چې د Binomial پراختیا دا ښکاري تاسو اجازه ورکړئ چې د Binomial پراختیا دا ښکاري چرا دا کچه کله چې د نمونوي توپیر نه کوي د نمونوي توپیر (Analytical) With AI working with neural networkd you must build expressions: کټګورۍ کټګورۍ: 1000 کټګورۍ layer 2 derivative: میلیونه کلمې (combinatorial explosion) expression size grows in depth/width; even with common-subexpression elimination it becomes to construct, store, or simplify. Hundreds of layers: exponentially intractable Memory required: More than all atoms in the universe 👀 دوه کچه د تفتیش: Never builds expressions: Each instrumented tensor stored value + ε·derivative د حافظه: 2 × بکس ماډل (د k = 1 لپاره) یا د Jets سره د 3× بیس ماډل (د k=2 سره د دوهم derivative لپاره) For GPT-5 (1.8T parameters): k=1: ~14.4 TB → 18.0 TB (په بشپړه توګه عملي) k=2: ~14.4 TB → 21.6 TB (د ~34 H100 نندارې لپاره مناسب) ~14.4 TB → 18.0 TB (په بشپړ ډول عملی) ~14.4 TB → 21.6 TB (fits on ~34 H100 nodes) خو انتظار وکړئ - تاسو په AI ریاضی کې د لومړي ټولګي الوتئ And there’s still more. د دوه ګوني / جټ شمیره algebra تاسو ته اجازه ورکوي (Yup، که تاسو غواړئ خپل ځان یو خدمت وکړئ او د حقیقي AI چې کار کوي، ). composition of functions learn category theory now! Here’s your genius move: د فعالیتونو ترکیب سره، موږ کولی شو second derivatives for the price of a first derivative!! ایا. یوازې د کارولو - په بل ډول د محدودیت پر بنسټ حسابولو په جوړښت کې غیر ممکن. How? composition of functions In Plain English: Why Composition Fails With h-Limits ځکه چې: Traditional calculus can’t do JVP∘VJP = HVP gives you a number (an approximation of f’(x)·v) JVP via finite differences دا شمیره د VJP لپاره د مختلفو جوړښت نه لري تاسو باید د نوي پایلې فرق تبادلې سره پیل کړئ د عملیاتو د زنجیره نه کوي - هر یو د جوړښت ته اړتيا لري چې بل اړتيا لري. ځکه چې: Dual numbers CAN do JVP∘VJP = HVP gives you a dual number JVP with duals (f(x), f'(x)·v) دا دوه شمیره د derivative جوړښت په خپل ε-توازن کې لري VJP کولی شي په مستقیم ډول د دې په توګه د انټرنټ په توګه درملنه وکړي — each preserves the structure the next needs The operations chain naturally Dual numbers are algebraically closed under composition. د عملی اغیزې what the new paradigm can compute that the old one can’t: چرا دا د AI حل کولو کلید دی Current AI (k=1 only): کولی شي ځواب وکړي: "د هغه لاره چې زه باید لاړ شئ؟" Cannot answer: “How sharply is this direction changing?” د پایلو: Reactive، نه anticipatory With composition (JVP∘VJP): د لومړي derivatives لګښت 2 × د لومړي derivatives لګښت ترلاسه کړئ کولی شي curves مخکښ کړي، د پیژندنې بدلونونه تشخیص کړي پایله: د ډیرو مثالونو څخه یو - ټیسل د افسانو د بریښنا د بندولو څخه راځي؛ د AI د هلیسین کولو څخه راځي. Tesla stops phantom braking; AI stops hallucinating. Tesla stops phantom braking; AI stops hallucinating. With explicit k=3 jets: د 3× د لګښت لپاره د تیسری درملنې ترلاسه کړئ کولی شي د تپولوژیک مطابقت چمتو کړي (د تپونو شمیره) Result: Mathematically certified AI outputs د Functors + Composition ګټې And why Hyperreal Algebra Matters: Without it (finite differences): هر derivative امر ته اړتيا لري چې له رنګ څخه پیل شي د غلطاتو د هر نښلیدو سره تاسیس نه د جوړولو جوړښت د کارولو لپاره With it (dual numbers): Higher-order derivatives = compose lower-order operations Exact (within floating-point) اتوماتیک (د زنجیره قاعده د ε-Arithmetic کې جوړ شوی) د دې لپاره: ✅ د دوه شمیره کچه ته د یوځای کچه کچه (الینیارې یادښت) ✅ د ترکیب کارونه (JVPVJP = HVP اتومات) ✅ Higher orders accessible with Jet numbers ( k=3, k=4 feasible) د دې لپاره: د دې لپاره: ✅ د دوه شمیره کچه ته د یوځای کچه کچه (الینیارې یادښت) ✅ Composition works (JVP∘VJP = HVP automatically) ✅ د Jet شمېر سره د لوړ کاري امرونه ( k = 3، k = 4 ممکن) And why: د نمونوي توپیر د انفجار (Exponential Expressions) 🔸 محدود فرقونه نه کولی شي جوړ کړي (نه د فعالیتونو) ❌ h-limit روشونه په لوړه کچه (د خطا مرکبونه) SUMMING UP The entire AI industry is stuck at first-order optimization because: They learned calculus as h-limits (doesn’t scale) دوی د derivatives د محدود فرقونو په توګه کاروي (د compose نه کوي) دوی هیڅکله د ګروپ نظریاتو او Hyperreal Numbers په اړه نه زده کړې (نه په CS کورسونو کې) Meanwhile: Dual numbers make derivatives (not approximations) algebraic objects Jets make higher orders (not exponential) linear in cost Functorial composition makes second derivatives (JVP∘VJP) cheap The math to fix Tesla’s phantom braking, OpenAI’s hallucinations, and Meta’s moderation chaos has been sitting in textbooks since 1960s. په انتظار کې چې هغه څوک چې د دوامداره نظریه (~400 کاله)، nilpotent algebra (~150 کاله) او functiontorial composition + hyperreals (~60 کاله) تر منځ د ټکونو سره اړیکه ونیسئ. To the biggest unsolved problems in AI. Now you know what Silicon Valley doesn’t and see what they cannot. نوټ: په دې مقاله کې، "د سنګاري محاسبه" په عملیاتو کې کارول شوي محدود فرق (h-limit) پیژندنه معنی کوي - د h انتخاب کړئ، تقريبا، تکرار کړئ - نه د تحلیل / نمونې پایلې. نوټ: په دې مقاله کې، "د سنګاري محاسبه" په عملیاتو کې کارول شوي محدود فرق (h-limit) پیژندنه معنی کوي - د h انتخاب کړئ، تقريبا، تکرار کړئ - نه د تحلیل / نمونې پایلې. Curious about the hidden side of AI? Discover more on the page of José Crespo, PhD. ځانګړي انځور: ټیسلا د دیوال په ځمکه کې ځي، په برخه کې د سورج په ځمکه کې رڼا - په اسانۍ سره د بشري ډرایور له لارې مخنیوی. انځور له خوا د جوړونکي سره ثابته پراختیا. Image created by the author with Stable Diffusion. Featured image: Tesla crashing through a wall, partially lit by sunset - easily avoidable by a human driver.