Scraperul dvs. web a fost blocat din nou? Uf, ce acum? Ați găsit acele anteturi HTTP și le-ați făcut să arate exact ca un browser, dar site-ul și-a dat seama că solicitările dvs. au fost automatizate. Cum e posibil? Simplu: este amprenta ta TLS! 😲 Scufundă-te în lumea furișă a amprentelor TLS, descoperă de ce este criminalul tăcut din spatele majorității blocurilor și învață cum să o ocoliți. Anti-Bot te-a blocat din nou? E timpul să înveți de ce! Să presupunem că aveți de-a face cu un scenariu tipic de răzuire. Efectuați o solicitare automată folosind un client HTTP, cum ar fi în Python sau în JavaScript, pentru a prelua codul HTML al unei pagini web pentru a extrage unele date din aceasta. Solicitări Axios După cum probabil știți deja, majoritatea site-urilor web au . Ești curios despre cea mai bună tehnologie anti-răzuire? Consultați ghidul nostru despre cele mai bune soluții anti-răzuire! 🔐 tehnologii de protecție împotriva botului Aceste instrumente monitorizează cererile primite, eliminând cele suspecte. Dacă cererea ta pare să provină de la un om obișnuit, ești gata să pleci. Altfel? O să fie blocat! 🧱 Solicitări de browser vs solicitări de bot Acum, cum arată o solicitare de la un utilizator obișnuit? Uşor! Doar porniți instrumentele DevTools ale browserului dvs., mergeți la fila Rețea și vedeți singur: Dacă copiați acea solicitare în cURL selectând opțiunea din meniul de clic dreapta, veți obține ceva de genul acesta: curl 'https://kick.com/emotes/ninja' \ -H 'accept: application/json' \ -H 'accept-language: en-US,en;q=0.9' \ -H 'cache-control: max-age=0' \ -H 'cluster: v1' \ -H 'priority: u=1, i' \ -H 'referer: https://kick.com/ninja' \ -H 'sec-ch-ua: "Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"' \ -H 'sec-ch-ua-mobile: ?0' \ -H 'sec-ch-ua-platform: "Windows"' \ -H 'sec-fetch-dest: empty' \ -H 'sec-fetch-mode: cors' \ -H 'sec-fetch-site: same-origin' \ -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36' Dacă această sintaxă arată ca chineză pentru dvs., nu vă faceți griji - consultați . 📖 introducerea noastră la cURL Practic, o solicitare „umană” este doar o solicitare HTTP obișnuită cu câteva antete suplimentare (steaguri ). Sistemele anti-bot inspectează acele anteturi pentru a afla dacă o solicitare vine de la un bot sau un utilizator legitim într-un browser. -H Unul dintre cele mai mari steaguri roșii ale lor? Antetul ! Explorați postarea noastră despre . Acest antet este setat automat de clienții HTTP, dar nu se potrivește niciodată cu cele utilizate de browserele reale. User-Agent cei mai buni agenți de utilizare pentru web scraping Nepotrivire în acele antete? Este un cadou mort pentru roboți! 💀 Pentru mai multe informații, accesați ghidul nostru despre . anteturile HTTP pentru web scraping Setarea antetelor HTTP nu este întotdeauna soluția Acum, s-ar putea să vă gândiți: „Remediere ușoară, voi efectua doar solicitări automate cu acele antete!” Dar stai puțin... 🚨 Continuați și rulați solicitarea cURL pe care ați copiat-o din DevTools: Surprinde! Serverul v-a dat înapoi cu o pagină „403 Acces refuzat” de la Cloudflare. Da, chiar și cu anteturile asemănătoare browserului, poți fi blocat! La urma urmei, nu este atât de ușoară. 😅 spargerea Cloudflare Dar stai, cum?! Nu este exact aceeași cerere pe care o face un browser? 🤔 Ei bine, nu chiar… Cheia se află în modelul OSI La nivelul aplicației modelului OSI, browserul și solicitările cURL sunt aceleași. Cu toate acestea, există toate straturile de bază pe care ați putea să le treceți cu vederea. 🫠 Unele dintre aceste straturi sunt adesea vinovații din spatele acelor blocuri plictisitoare, iar informațiile transferate acolo sunt exact pe care se concentrează tehnologiile avansate anti-răzuire. Fiare viclene! 👹 De exemplu, se uită la , care este extrasă din stratul de rețea. Doriți să evitați aceste interdicții IP? Urmați tutorialul nostru despre ! adresa dvs. IP cum să evitați interzicerea IP cu proxy Din păcate, asta nu este tot! 😩 Sistemele anti-bot acordă, de asemenea, o atenție deosebită amprentei din canalul de comunicare securizat stabilit între script-ul dvs. și serverul web țintă la Stratul de transport. TLS Aici lucrurile diferă între un browser și o solicitare HTTP automată! Cool, nu? Dar acum trebuie să vă întrebați ce înseamnă asta... 🔍 Ce este o amprentă TLS? O este un identificator unic pe care soluțiile anti-bot îl creează atunci când browserul sau clientul HTTP stabilește o conexiune sigură la un site web. amprentă TLS Este ca o semnătură digitală pe care mașina dvs. o lasă în urmă în timpul — „conversația” inițială dintre un client și serverul web pentru a decide cum vor cripta și securiza datele la nivelul de transport. 🤝 strângerii de mână TLS Când efectuați o solicitare HTTP către un site, biblioteca TLS de bază din browser sau clientul HTTP începe procedura de strângere de mână. Cele două părți, clientul și serverul, încep să se întrebe reciproc lucruri precum: „Ce protocoale de criptare acceptați?” și „Ce cifruri ar trebui să folosim?” ❓ Pe baza răspunsurilor dvs., serverul poate spune dacă sunteți un utilizator obișnuit într-un browser sau un script automat care utilizează un client HTTP. Cu alte cuvinte, dacă răspunsurile tale nu se potrivesc cu cele ale browserelor obișnuite, s-ar putea să fii blocat. Imaginați-vă această strângere de mână ca două persoane care se întâlnesc: : Versiunea umană Server: "Ce limba vorbesti?" Browser: „Engleză, franceză, chineză și spaniolă” Server: „Foarte, hai să discutăm” : Versiunea bot Server: "Ce limba vorbesti?" Bot: „Miau! 🐈” Server: „Îmi pare rău, dar nu pari o ființă umană. Blocat!" Amprentarea TLS funcționează sub stratul Aplicație al modelului OSI. Asta înseamnă că nu vă puteți modifica pur și simplu amprenta TLS cu câteva linii de cod. 🚫 💻 🚫 Pentru a falsifica amprentele digitale TLS, trebuie să schimbați configurațiile TLS ale clientului HTTP cu cele ale unui browser real. Captura? Nu toți clienții HTTP vă permit să faceți acest lucru! Acolo intră în joc instrumente precum . Această versiune specială a cURL este concepută pentru a imita setările TLS ale unui browser, ajutându-vă să simulați un browser din linia de comandă! cURL Impersonate De ce un browser fără cap poate să nu fie nici o soluție Acum, s-ar putea să vă gândiți: „Ei bine, dacă clienții HTTP emit amprente TLS „asemănătoare unui bot”, de ce să nu folosiți pur și simplu un browser pentru scraping?” Ideea este de a folosi un instrument pentru a rula sarcini specifice pe o pagină web cu un browser fără cap. de automatizare a browserului Indiferent dacă browserul rulează în modul headed sau headless, încă folosește aceleași biblioteci TLS subiacente. Aceasta este o veste bună, deoarece înseamnă că browserele fără cap generează o amprentă TLS „asemănătoare unui om”! 🎉 Asta e soluția, nu? Nu chiar… 🫤 Iată decizia: browserele fără cap vin cu alte configurații care strigă „Sunt un bot!” 🤖 Sigur, ați putea încerca să ascundeți asta cu un , dar sistemele avansate anti-bot încă pot adulmeca browserele fără cap prin provocări JavaScript și amprentarea browserului. plugin stealth în Puppeteer Extra Deci, da, browserele fără cap nu sunt scăparea ta sigură, nici la anti-boți. 😬 Cum să ocoliți cu adevărat amprenta TLS Verificarea amprentelor TLS este doar una dintre multele tactici avansate de protecție împotriva botilor pe care le implementează soluțiile sofisticate anti-răzuire. 🛡️ Pentru a lăsa cu adevărat în urmă durerile de cap ale amprentei TLS și ale altor blocuri enervante, aveți nevoie de o soluție de răzuire de nivel următor care să ofere: Amprente fiabile TLS Scalabilitate nelimitată Superputeri de rezolvare a CAPTCHA Rotație IP încorporată printr-o rețea proxy de 72 de milioane de IP Reîncercări automate Capabilități de redare JavaScript Acestea sunt câteva dintre numeroasele funcții oferite de — o soluție de browser cloud all-in-one pentru a răzui Web-ul eficient și eficient. API-ul Bright Data Scraping Browser Acest produs se integrează perfect cu instrumentele preferate de automatizare a browserului, inclusiv Playwright, Selenium și Puppeteer. ✨ Doar configurați logica de automatizare, rulați scriptul și lăsați API-ul Scraping Browser să se ocupe de munca murdară. Uitați de blocuri și reveniți la ceea ce contează - răzuirea la viteză maximă! ⚡️ https://www.youtube.com/watch?v=21Xyi1HMTng&embedable=true Nu trebuie să interacționați cu pagina? Încercați al Bright Data! programul de deblocare web Gânduri finale Acum știi în sfârșit de ce lucrul la nivel de aplicație nu este suficient pentru a evita toate blocajele. Biblioteca TLS pe care o folosește clientul dvs. HTTP joacă, de asemenea, un rol important. Amprenta TLS? Nu mai este un mister - l-ai deslușit și știi cum să-l rezolvi. Căutați o modalitate de a răzui fără a lovi blocurile? Nu căutați mai departe decât suita de instrumente ! Alăturați-vă misiunii de a face internetul accesibil tuturor, chiar și prin solicitări HTTP automate. 🌐 Bright Data Până data viitoare, continuă să navighezi pe Web cu libertate!