332 čtení
332 čtení

Proč noví agenti AI volí Markdown před HTML?

podle Bright Data7m2025/03/19
Read on Terminal Reader

Příliš dlouho; Číst

Zjistěte, proč agenti AI převádějí HTML na Markdown, aby snížili využití tokenů až o 99 %! Rychlejší zpracování, nižší náklady – účinnost AI v celé své kráse.
featured image - Proč noví agenti AI volí Markdown před HTML?
Bright Data HackerNoon profile picture
0-item

Agenti AI přebírají svět a znamenají další velký krok ve vývoji AI 🦖. Takže, co mají všichni tito agenti společného? Při zpracování obsahu na webových stránkách používají Markdown místo raw HTML ⛓️. Chcete vědět proč?


Tento blogový příspěvek vám ukáže, jak vám tento jednoduchý trik může ušetřit až 99 % tokenů a peněz!

Agenti AI a zpracování dat: Úvod

Agenti umělé inteligence jsou softwarové systémy, které využívají sílu umělé inteligence k plnění úkolů a plnění cílů jménem uživatelů. Tito agenti, kteří jsou vybaveni uvažováním, plánováním a pamětí, mohou činit rozhodnutí, učit se a přizpůsobovat se – vše sami. 🤯


V posledních měsících se agenti umělé inteligence prosadili, zejména ve světě automatizace prohlížečů. Tyto prohlížeče agentů AI vám umožňují používat LLM k programovému ovládání prohlížečů, automatizaci úloh, jako je přidávání produktů do vašeho košíku Amazon 🛒.


Přemýšleli jste někdy nad tím, které knihovny a rámce pohánějí agenty AI, jako jsou Crawl4AI , ScrapeGraphAI a LangChain ?


Při zpracování dat z webových stránek tato řešení často převádějí HTML do Markdown automaticky – nebo nabízejí způsoby, jak to udělat – před odesláním dat LLM. Proč ale tito agenti AI upřednostňují Markdown před HTML? 🧐


Proč?


Krátká odpověď zní: uložit tokeny a urychlit zpracování!


Čas kopat hlouběji! Nejprve se však podívejme na další oblíbený přístup, který agenti AI používají ke snížení zatížení dat. 👀

Od přetížení dat k čistotě: První krok agentů AI

Představte si, že chcete, aby váš agent AI:

  1. Připojte se k webu elektronického obchodu (např. Amazon)

  2. Vyhledejte produkt (např. PlayStation 5)

  3. Extrahujte data z konkrétní stránky produktu


To je běžný scénář pro agenta AI, protože e-commerce scraping je divoká jízda 🎢. Koneckonců, produktové stránky jsou chaotickou změtí neustále se měnících rozvržení, díky nimž se z programové analýzy dat stává noční můra. To je místo, kde agenti umělé inteligence přizpůsobují své superschopnosti 💪 a využívají LLM k bezproblémové extrakci dat – bez ohledu na to, jak chaotická je struktura stránky!


Nyní řekněme, že jste na misi získat všechny šťavnaté detaily z produktové stránky PlayStation 5 na Amazonu 🎮:


Stránka produktu PlayStation 5 Amazon


Zde je návod, jak byste svému prohlížeči AI agenta přikázali, aby se to stalo:


 Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.


To by měl agent AI (doufejme 🤞) dělat:

  1. Otevřete Amazon v prohlížeči 🌍

  2. Vyhledejte „PlayStation 5“ 🔍

  3. Identifikujte správný produkt 🎯

  4. Extrahujte podrobnosti o produktu ze stránky a vraťte je ve formátu JSON 📄


Ale tady je skutečná výzva – Krok 4 . Produktová stránka Amazon PlayStation 5 je bestie! HTML je nabité spoustou informací, z nichž většinu ani nepotřebujete.


Chcete důkaz? Zkopírujte úplný kód HTML stránky z DOM vašeho prohlížeče a vložte jej do nástroje, jako je nástroj LLM Token Calculator :


Výsledek z token-calculator.net


🚨 Připravte se…


896 871 tokenů!


896 871 tokenů?! 😱 Jo, čtete správně – osm set devadesát šest tisíc, osm set sedmdesát jedna zatracených žetonů!


To je MASIVNÍ nálož dat – alias tuna peněz! 💸 (více než 2 $ za požadavek na GPT-4o! 😬)


Poslouchejte Joe Bastianicha…


Jak si dokážete představit, předávání všech těchto dat agentovi AI má velká omezení:

  1. Může vyžadovat prémiové / profesionální plány, které podporují vysoké využití tokenů 💰
  2. Stojí to jmění – zvláště pokud zadáváte časté dotazy 🤑
  3. Zpomaluje reakce, protože AI musí zpracovávat směšné množství informací ⏳

Oprava: Ořízněte tuk

Většina agentů umělé inteligence vám umožňuje určit selektor CSS pro extrahování pouze relevantních částí webové stránky. Jiní používají heuristické algoritmy k automatickému filtrování obsahu – jako je odstranění záhlaví a zápatí (které obvykle nepřidávají žádnou hodnotu). ✂️


Pokud si například prohlédnete produktovou stránku Amazonu PlayStation 5, všimnete si, že většina užitečného obsahu se nachází uvnitř prvku HTML určeného selektorem #ppd CSS :


Prvek HTML #ppd


Co kdybyste svému agentovi AI řekli, aby se místo celé stránky zaměřil pouze na prvek #ppd ? Změnilo by se to? 🤔


Pojďme to otestovat v přímém souboji níže! 🔥

Markdown vs HTML ve zpracování dat AI: přímé srovnání

Porovnejte využití tokenu při přímém zpracování části webové stránky s jejím převedením na Markdown.

HTML

Ve svém prohlížeči zkopírujte HTML prvku #ppd a vložte jej do nástroje LLM Token Calculator:


Tentokrát 309 951 tokenů


Z 896 871 tokenů na pouhých 309 951 – téměř 65% úspora!


To je samozřejmě obrovský pokles, ale buďme skuteční – stále je to příliš mnoho žetonů! 😵‍💸

Snížení

Nyní zopakujme trik, který používají agenti umělé inteligence, pomocí online nástroje pro převod HTML-to-Markdown. Nejprve si však pamatujte, že agenti umělé inteligence provádějí určité předběžné zpracování, aby odstranili obsahově nevýznamné značky, jako jsou značky <style> a <script> .


HTML cílového prvku můžete filtrovat pomocí tohoto jednoduchého skriptu v konzole vašeho prohlížeče:


 function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);


Dále zkopírujte vyčištěný kód HTML a převeďte jej na Markdown pomocí online nástroje pro převod HTML-to-Markdown :


HTML do Markdown


Výsledný Markdown je výrazně menší, ale stále obsahuje všechna důležitá textová data!


Páni!


Nyní vložte tento Markdown do nástroje LLM Token Calculator:


7 943 tokenů!


Výložník! 💣 Z 896 871 tokenů na pouhých 7 943 tokenů. To je neuvěřitelná úspora ~99 % !


Jaký ohromující výsledek!


Pouhým základním odstraněním obsahu a konverzí HTML-to-Markdown máte štíhlejší užitečné zatížení, nižší náklady a mnohem rychlejší zpracování. Velká výhra! 💰

Markdown vs HTML: Bitva o tokeny a úspory nákladů

Posledním krokem je ověření, že text Markdown stále obsahuje všechna klíčová data. Chcete-li tak učinit, předejte jej LLM s poslední částí původní výzvy a zde je výsledek JSON, který získáte:


 { "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }

To je přesně to, co by váš agent AI vrátil – na místě!


Pro rychlý přehled se podívejte na závěrečnou souhrnnou tabulku níže:


Metoda

Tokeny

o1-mini Cena

Cena gpt-4o-mini

Cena gpt-4o

Celé HTML

896,871

13,4531 $

0,1345 USD

2,2422 USD

#ppd HTML

309,951

4,6493 $

0,0465 USD

0,7749 $

#ppd Markdown

7,943

0,0596 USD

0,0012 USD

0,0199 USD

Kde agenti AI selhávají

Všechny ty triky na ukládání tokenů jsou k ničemu, pokud je váš agent AI zablokován cílovou stránkou 😅 (viděli jste někdy, jak zábavné může být selhání AI CAPTCHA? 🤣 ).


Proč se to děje? Jednoduchý! Většina webů používá opatření proti škrábání , která mohou snadno zablokovat automatické prohlížeče. Chcete úplný rozpis? Podívejte se na náš nadcházející webinář níže:


Pokud jste postupovali podle našeho pokročilého průvodce webovým scrapingem , víte, že problém není s nástroji pro automatizaci prohlížeče (knihovny, které pohánějí vaše agenty AI). Ne, skutečným viníkem je samotný prohlížeč . 🤖


Abyste se vyhnuli zablokování, potřebujete prohlížeč vytvořený speciálně pro cloudovou automatizaci. Vstupte do Scraping Browser , což je prohlížeč, který:

  • Běží v režimu s hlavičkou stejně jako běžný prohlížeč, takže je mnohem těžší pro anti-bot systémy vás detekovat. 🔍
  • Snadno se škáluje v cloudu, což vám šetří čas a peníze na infrastrukturu. 💰
  • Automaticky řeší CAPTCHA, zpracovává otisky prstů prohlížeče, přizpůsobuje soubory cookie/záhlaví a snaží se, aby věci fungovaly hladce. ⚡
  • Otáčí IP z jedné z největších a nejspolehlivějších proxy sítí. 🌍
  • Bezproblémově se integruje s oblíbenými automatizačními knihovnami jako Playwright, Selenium a Puppeteer. 🔧


Zjistěte více o Scraping Browser Bright Data, dokonalém nástroji pro integraci do vašich agentů AI :

Závěrečné myšlenky

Nyní jste ve smyčce, proč agenti AI používají Markdown pro zpracování dat. Je to jednoduchý trik, jak ušetřit tokeny (a peníze) a zároveň urychlit zpracování LLM.


Chcete, aby váš AI agent běžel bez narážení do bloků? Podívejte se na sadu nástrojů Bright Data pro AI ! Přidejte se k nám a zpřístupněte internet všem – dokonce i prostřednictvím automatizovaných prohlížečů agentů AI. 🌐


Až do příště pokračujte v procházení webu svobodně! 🏄‍♂️

L O A D I N G
. . . comments & more!

About Author

Bright Data HackerNoon profile picture
Bright Data@brightdata
From data collection to ready-made datasets, Bright Data allows you to retrieve the data that matters.

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks