Die veld van kunsmatige intelligensie ervaar 'n ongekende toename in innovasie, maar die publieke diskursus bly dikwels vasgestel op Groot Taalmodelle (LLMs). en LeCun se insigte uitdag konvensionele wysheid, beklemtoon 'n verskuiwing na stelsels wat werklik verstaan, rede en interaksie met ons komplekse fisiese wêreld. deur Bill Dally Yann LeCun se Oor die taalgrens Yann LeCun erken openlik dat hy Ek is nie meer so geïnteresseerd in LLMs nie. . not so interested in LLMs anymore Terwyl hulle voortgaan om op die rand te verbeter deur meer data, berekening en sintetiese data-generasie, sien LeCun hulle as 'n "eenvoudige manier om rede te sien". Begrip van die fisiese wêreld: Hoe kan masjiene die nuanses van die werklike wêreld fisika en interaksie verstaan? Persistent Memory: Ontwikkel AI-stelsels met die kapasiteit vir langtermyn, toeganklike geheue. Reasoning: Gaan buite die huidige, dikwels rudimentêre, vorme van redewerk in LLMs na meer gesofistikeerde, intuïtiewe metodes. Beplanning: Om AI in staat te stel om volgorde van aksies te beplan om spesifieke doelwitte te bereik, soortgelyk aan menslike kognitiewe prosesse. LeCun stel voor dat die tegnologie gemeenskap, terwyl dit tans gefokus is op LLMs, waarskynlik opgewonde sal word oor hierdie "donker akademiese dokumente" in vyf jaar tyd. Die uitdaging van die werklike wêreld: Hoekom tokens kort val Die fundamentele beperking van huidige LLMs, volgens LeCun, lê in hul token-gebaseerde benadering. Tokens, wat gewoonlik 'n eindige stel moontlikhede verteenwoordig (ongeveer 100,000 vir LLMs), is goed geskik vir diskrete data soos taal. Mense kry "wêreldmodelle" in die eerste paar maande van die lewe, wat ons toelaat om oorsaak en gevolg te verstaan - byvoorbeeld, hoe om 'n bottel van bo af te druk, dit kan draai, terwyl dit van onder af kan duik. Versoekings om stelsels op te lei om die wêreld te verstaan deur hoë-dimensionele, voortdurende data soos video op 'n pixelvlak te voorspel, het grotendeels misluk. Sulke stelsels versuim hul hulpbronne om onvoorspelbare besonderhede uit te vind, wat lei tot 'n "volledige verspilling van hulpbronne". Selfs selfbeheerde leer tegnieke wat werk deur beelde van korrupte weergawes te reconstrueer, het nie gewerk nie, sowel as alternatiewe argitekture. Dit is omdat baie aspekte van werklikheid inherent onvoorspelbaar is op 'n granulêre vlak, soos die presiese voorkoms van elke persoon in 'n video-volg. Joint Embedding Predictive Architectures (JAPA): Die toekoms van wêreldmodelle Die antwoord op hierdie uitdaging, argumenteer LeCun, lê in Joint Embedding Predictive Architectures (JAPA). In teenstelling met generatiewe modelle wat pixel-vlak herbou probeer, fokus JAPA op die leer van "abstrakte verteenwoordigings" van data. How JAPA Works: 'N stuk input (bv, 'n stuk video of 'n beeld) word deur 'n encoder uitgevoer om 'n abstrakte voorstelling te produseer. 'N Voortgang of veranderde weergawe van die invoer word ook deur 'n encoder uitgevoer. Die stelsel probeer dan voorspellings te maak binne hierdie "representasieruimte" (latente ruimte), eerder as in die ruwe invoerruimte. Hierdie benadering vermy die ineenstortingsprobleem waar stelsels ingang kan ignoreer en konstante, nie-informatiewe verteenwoordigings kan produseer, 'n hindernis wat jare geneem het om te oorkom. Vir agentistiese stelsels wat kan rede en plan, JAPA bied 'n kragtige meganisme. Stel jou voor 'n voorspeller wat, deur die huidige toestand van die wêreld te waarneem, kan voorspel "die volgende toestand van die wêreld aangesien ek 'n aksie kan neem wat ek voorstel om te neem." JAPA for Reasoning and Planning: LeCun kontrasteer dit sterk met huidige "agentiese rede systeme" wat 'n groot aantal token-volgorde genereer en dan 'n tweede neurale netwerk gebruik om die beste te kies. Hy vergelyk dit met "die skryf van 'n program sonder om te weet hoe om 'n program te skryf" - 'n "totale hopelose" metode vir alles buite kort volgorde, want dit skaal eksponensieel met lengte. 'N Praktiese voorbeeld van JAPA se potensiaal is die VJA (Video Joint Embedding Predictive Architecture) projek, wat tans by Meta ontwikkel word. Die VJA-stelsel, wat op kort video-segmente opgelei is om verteenwoordigings van volle video's uit maskerde weergawes te voorspel, demonstreer 'n vermoë om te detekteer of 'n video fisies moontlik is of nie. Die pad na gevorderde masjienintelligensie (AMI) LeCun verkies die term gevorderde masjienintelligensie (AMI) teenoor kunsmatige algemene intelligensie (AGI), verwys na die hoogs gespecialiseerde aard van menslike intelligensie. met menslike vlak AI wat moontlik binne 'n dekade of so aankom. met menslike vlak AI wat moontlik binne 'n dekade of so aankom. Hy waarsku egter teen die historiese patroon van oormatige optimisme in AI, waar elke nuwe paradigma aangekondig word as die pad na menslike vlak intelligensie binne 'n dekade. 'N Groot bottleneck is data. LLMs word op groot hoeveelhede teks opgelei (bv. 30 triljoen tokens, wat ooreenstem met 400 000 jaar lees). In teenstelling hiermee verwerk 'n 4-jarige kind 'n ooreenstemmende hoeveelheid data deur middel van visie in slegs 16 000 uur, wat die enorme doeltreffendheid van visuele leer demonstreer. Die sleutel tot die ontblootstelling van AMI, volgens LeCun, is om die "goeie resep" te ontdek vir die opleiding van JAPA-argitekture op skaal. Net soos dit tyd geneem het om die regte kombinasie van ingenieurswese truuks, nie-lineariteite en innovasies soos ResNet (die mees getituleerde papier in die wetenskap oor die afgelope dekade) uit te vind om diepe neurale netwerke en transformateurs doeltreffend te opleiding, is 'n soortgelyke deurbraak nodig vir JAPA. Die impak van AI: Van lewensreddende tot produktiwiteitsinstrumente Ten spyte van die fokus op toekomstige paradigmas, beklemtoon LeCun die enorme positiewe impak wat AI reeds het: Wetenskap en Geneeskunde: AI transformeer dwelmontwerp, proteïenplooi en die begrip van lewensmekanisme.In mediese beeldvorming, diepe leerstelsels voorskerm mammogramme vir tumore, en AI verminder MRI-skande tyd met 'n faktor van vier deur hoë-resolusie beelde van minder data te herstel. Automotive: bestuurderondersteuning en outomatiese noodremsysteme, nou verpligtend in Europa, verminder botsings met 40%, red lewens. Produktiwiteit en Kreatiwiteit: AI vervang nie mense nie, maar dien as "kraggereedskap" wat individue meer produktief en kreatief maak, of dit nou as codering assistente, in medisyne of in kunsmatige pogings is. Die behoefte aan "nauwkeurigheid en betroubaarheid" in toepassings soos outonoom bestuur (waar foute dodelik kan wees) maak velding en die invoering van AI-stelsels "meer moeilik as wat die meeste mense gedink het". Dit is waar AI dikwels misluk nie - nie in die basiese tegniek of demo's nie, maar in betroubaar te integreer in bestaande stelsels. Met betrekking tot die "dark kant" van AI, soos die diepfakes en valse nuus, verduidelik LeCun verrassende optimisme. Meta se ervaring dui daarop dat, ten spyte van die beskikbaarheid van LLMs, hulle nie 'n groot toename in generatiewe inhoud op sosiale netwerke gesien het nie, of ten minste nie op 'n slegte manier nie. Hy vertel die "Galactica" episode, waar Meta se oopbron-LLM vir wetenskaplike literatuur met "vitriol" ontmoet is en weggeneem is as gevolg van vrees-mongering, net vir ChatGPT om weke later gevier te word. LeCun glo dat die "contra-maatregel teen misbruik net beter AI is" - met stelsels gemeenskaplike verstand, rede, en die vermoë om hul eie betroubaar Die onontbeerlike rol van open source en globale samewerking Een kernbeginsel van LeCun se filosofie is die absolute noodsaaklikheid van open-source AI-platforms. Hy beklemtoon dat "goeie idees kom uit die interaksie van baie mense en die uitruil van idees". Geen enkele entiteit het 'n monopolie op innovasie nie, soos gedemonstreer deur die baanbrekende ResNet-argitektuur, wat van Chinese wetenskaplikes by Microsoft Research Beijing gekom het. Meta se verbintenis tot open-source, voorbeeld deur PyTorch en LLaMA, word gedryf deur die oortuiging dat dit 'n welvarende ekosisteem van start-ups bevorder en die grootste aantal slim mense toelaat om bydra tot die bou van noodsaaklike funksionaliteiteite. Why Open Source AI is Crucial for the Future: Diversiteit van AI-assistente: In 'n toekoms waar AI byna elke digitale interaksie (bv. slimbril) bemiddel, kan 'n enkele handvol maatskappye nie die diversiteit van assistente verskaf wat nodig is nie. Verspreide opleiding: Geen enkele entiteit sal al die wêreld se data in alle tale versamel nie.Die toekomstige model behels open-source fondsmodelle wat op 'n verspreide manier opgelei word, met datacenters wat wêreldwyd toegang gee tot subset data om 'n "consensusmodel" te train. Open-source models like LLaMA allow companies to download and fine-tune them on their own proprietary data without having to upload it, supporting specialized vertical applications and startup business models. Fine-Tuning on Proprietary Data: LeCun beklemtoon dat maatskappye wie se inkomste nie uitsluitlik aan AI-dienste gekoppel is nie (soos Meta se advertensiemodel) minder te verloor het en meer te verdien deur hul modelle oop te maak, in teenstelling met maatskappye soos Google wat dit as 'n bedreiging vir hul kernsoekbedryf kan sien. Hardware: brandstof vir die volgende AI-rewolusie Terwyl GPU's ongelooflike vordering gesien het (5.000 tot 10.000 keer toename in vermoë van Kepler tot Blackwell), beteken die berekeningskoste van redewerk in abstrakte ruimte "ons sal al die kompetisie wat ons kan kry nodig hê" in hardware. LeCun is grootliks skeptiek oor neuromorfiese hardeware, optiese berekening en kwantum berekening vir algemene AI-taak in die nabye toekoms.Hy dui daarop dat die digitale semiconductor-bedryf in so 'n "diepe plaaslike minimum" is dat alternatiewe tegnologieë 'n monumentale uitdaging ondervind om te vang. Hy sien egter belofte in Processor-in-Memory (PIM) of analoog/digitaal prosesor- en geheue tegnologie vir spesifieke "edge computation" scenario's, soos lae krag visuele verwerking in slim bril. om dit te komprimeer voordat dit na die visuele cortex gestuur word, wat demonstreer dat data, nie die berekening self nie, dikwels die meeste energie verbruik. Op die sensor Die toekoms: 'n staf van super-intelligente virtuele mense Uiteindelik sien LeCun 'n toekoms waar AI-stelsels "kraggereedskap" is wat menslike vermoëns verhoog, nie vervang nie. Ons verhouding met toekomstige AI sal een van die bevel wees; ons sal hul "boss" wees, met 'n "staf van super-intelligente virtuele mense wat vir ons werk". In wese is die toekoms van AI nie 'n monoliete, swart boks entiteit wat skielik verskyn nie.In plaas daarvan is dit 'n samewerking, iteratiewe proses, baie soos die bou van 'n groot, ingewikkelde stad waar elke bouer, argitek en ingenieur hul unieke kundigheid bydra tot 'n gedeelde blueprint, wat lei tot 'n lewendige en diverse metropolis van gevorderde masjienintelligensie.