Nagyon közel kerültünk a JÉG megjelenéséhez

Facebook Tetszik

2025. február 12. - Wittigen

Írtunk már egy próbálkozásról az LLM-ek elleni küzdelem során (ami igazából nem működött), most írunk egy másikról, ami sajnos már nem működik (vagy már csak rövid ideig fog).

A crawling, mint fogalom nem új keletű dolog. Az nem tiszta, hogy mikor és ki írta és indította el az első web crawlert (többször is feljön Brian Pinkerton és az ő weboldalának a WebCrawlernek a neve), de 2000 óta az internet és a keresőmotorok elterjedésével a net integrális részei lettek. Kis nyűgért cserébe (ha weboldal tulaj vagy) mindenkinek jobb lesz tőle. Hogy mi a pozitív hatása? Nos röviden és tömören: ezektől válik kereshetővé a www széles horizontja (azt most, hagyjuk, hogy adott cégek mennyire teszik tönkre a keresést, mert az egy másik cikk tárgya is lehetne, majd talán egyszer). Ezek a crawlerek abszolúte nem rendelkeznek semmiféle intelligenciával (nem mintha a későbbiek rendelkeznének) és igazából kárt sem feltétlen okoznak, nem csinálnak mást, mint meglátogatják az oldal minden egyes linkjét. Igazából úgy kell elképzelni, mint ha a weboldaladat megszállná egy busznyi turista, akik az utolsó kavics alá benéznek és befotóznak. Mint mondtam, ez okozhat nyűgöt weboldal tulajdonosoknak, mert ezek a crawlerek képesek befoglalni a teljes rendelkezésre álló sávszélességet, ami kisebb, selfhosted oldalaknál lehet kellemetlen, de vagy kibírható vagy kivédhető, utóbbira van az úgynevezett robots.txt, melyben meg lehet határozni, hogy mely részeit lehet egy weboldalnak indexelni, és melyiket kellene békén hagyni. Kulcs szó a kellene. Sajnálatos módon a robots.txt-t nincs lehetőség betartatni, úgyhogy a fejlesztők etikai kódexére vagyunk bízva... ÉÉÉéééés így jutunk el mindenki kedvenc LLM cégeiig, OpenAi, Claude, Perplexity, válasszatok egyet...

A crawlingnak van egy kevésbé kedvelt öccse, a scraping. A crawling nem csinál mást, hogy x tartalom y linken keresztül található meg, és ezt neked egy kereső motoron keresztül meg is tudja mondani, és általában be is tartják a robots.txt-ben foglalatakat. De az örökké éhes LLM algoritmus tulajokat egyetlen egy dolog érdekel, az hogy minél több adathoz jussanak, amivel hizlalhatják a saját szoftvereiket. Ezt nem én találom ki, tessék itt van az Open AI főnöke, aki amellett érvel, hogy a szerzőjogi törvények akadályozzák a fejlődést a szoftverüknek. És milyen meglepő az ő scrapereik ignorálják a robots.txt-ben foglalt kéréseket. És mivel itt több történik, mint indexelés, több terhet is róhat a webszerverekre, amellett, hogy csak úgy letölt mindent. És a legfőbb baj az, hogy egy ilyen algoritmus (oldal méretétől függően) akár napokig lefoglalhatja a teljes sávszélességét az oldalnak és ilyenkor nincs organikus látogató, te viszont fizetheted az esetlegesen ezzel járó költségeket ha nem veszed észre időben, vagy hibásan konfiguráltad az oldalad. Erre talált ki valaki egy védekezési metódust, ami nagyon emlékeztet William Gibson által kiötlött jelenlét gátlókra, vagyis az JEG-ekre (angolul ICE). Szóval mi az a tarpitting és mi az a Nepenthes?

A tarpitting ötlete nem új keletű dolog, spammelés ellen került kifejlesztésre, az alap ötlet az az, hogy egy köztes rendszert iktatsz az internet és a weboldalad közé, mely jobb esetben felfogja, de minimum késlelteti, hogy felesleges forgalom kerüljön a szerveredre. A kreatívan egy húsevő növény után elnevezett szoftver kicsit agresszívabb, a készítője egyenesen egy kártékony szoftverként fémjelzi (habár inkább mondanám nyűgnek, mint sem károkozásnak a szó hagyományos értelmében véve). Amikor telepíted a webszerveredre, akkor létre hoz egy rakás statikus fájlt, amit feltölt olyan hulladék tartalommal amire egyből ugranak az LLM scraperek. És tele vannak linkekkel, melyek vissza mutatnak a telepített szoftver gyökérmappájára így hajtja egy örökké tartó körforgásba a szaglászó algoritmusokat. Viszont ez rá is világít egy nagy hátulütőjére a szoftvernek: ki kell szolgálni őt is, és sajnos sok CPU és RAM-ot megesz ha fut. De valamit valamiért, és legfőképp, soha, de SOHA ne becsüld alá a dacot ami egyesekben lakozik. Azonban az, hogy már közismeretnek örvend azt jelenti, hogy rövid élet tartamú védekezés lesz (de hatásosabb, mint ami a Nightshade valaha is lehetett), mert ennek ismeretében elég egyszerű adaptálni, csak időlimitet kell beleírni a scraperekbe, hogy mennyi az a max idő, amit adott weboldalon tölt. Ami kicsit árnyaltabbá teszi a képet, az az, hogy ugyan a Nepenthes volt az első, de azóta megjelent legalább egy tucat hasonló ilyen szoftver/megoldás, mely mindegyike lehet annyira változó, hogy külön kelljen rá adaptálni az algoritmusokat. Aaron, a Nepenthes fejlesztője amúgy egész máshonnan fogja meg a szituációt . Nem az a lényeg, hogy futtat egy ilyet és hogy esetleg neki pénzébe kerül, hanem hogy ez pénzébe kerül a scrapelést végző cégnek, mely kidobott pénzt nem fogják visszakapni bevételként, mert a beszedett adat nemes egyszerűséggel hulladék és potenciálisan megmérgezi az így nyert adathalmazt (itt érdekes megjegyezni, hogy az Microsoft által jegyzett reportban ugyan védhetőnek, de jelentős veszélynek tartják az adatszett mérgezést), és tekintve, hogy az OpenAI saját becslése (meg itt egy másik is) alapján 2029-ig nem is lesz profitábilis ÉS vérzik a pénzt, akkor minden ilyen egy apró koporsó szeg. És sok kell még. De mit lehet tenni, ha ők is véges ideig működhetnek? Nos nem sok mindent. Ha a Nepenthes mellett nem futtatod a Markov Babbler nevű kiegészítőt, akkor a végtelen labirintus generálásán túl csak listát ír IP címekkel, melyek nagy valószínűséggel nem organikus látogatók, hanem a scrapereket futtató webszerverek IP címe. És így marad az IP tartomány bannolgatás, de az is macsak-egér harc, mert nagy cégeknek nyilvános IP 12 egy tucat. Az meg már csak hab a tortán, hogy az Open AI szóvivője azt merte nyilatkozni, hogy nem értik miért alakult ki ez, mert ők tiszteletben tartják a robots.txt tartalmát. Lol. A másik kedvencem meg a kritikusok véleménye, ami miatt elítélik az ilyen csapdákat mert és itt idézek:

A kritikusok attól tartanak, hogy a Nepenthes széles körű alkalmazása nem csak a [weboldalak] szervereiket terheli meg, hanem növeli a költségeket is, amelyek az egész mesterséges intelligenciával való hiábavaló crawling működtetéséből adódnak.

„Úgy tűnik, hogy leginkább emiatt aggódnak” - mondta Aaron az Arsnak. „Az AI-modellek által igényelt energia mennyisége már most is csillagászati, és én csak tovább rontok rajta. Én pedig úgy látom ezt, hogy oké, ha nem teszek semmit, az AI modellek felforralják a bolygót. Ha ezt bekapcsolom, felforralják a bolygót. Hogy lehet ez az én hibám?”

Oltári nem? Az AT cikkben amúgy többször is, mint malware hivatkoznak a Nepenthesre és hasonszőrű társaira, én erre nem vagyok hajlandó, mert a körbe-körbe hajtás nem kártétel, csak nyűg (akkor is ha pénzbe kerül), de ha már itt vagyunk, miért nem kategorizáljuk az LLM cégek scrapereit mint valós fenyegetés és malware? Ők több kárt okoznak.

Még mindig úgy gondolom, hogy az LLM-ek által nyújtott eszközök (képgenerátorok, szöveg elemzők, fordítóprogramok) hasznos eszközök lennének a megfelelő keretek között, de hooooly fuck, az összes AI bro és cég, meg azok is, akik oktatásokat adnak el ilyen téren olyan mértékű gyűlöletet szítanak bennem hogy már az enciklopédia projekten is abbahagytam a használatát, inkább áttérek photo bashingre... Nem beszélve az okozott kár mértékéről ami talán már rég visszafordíthatatlan. Kedvencem az volt, amikor oktatáson azzal promózták ezeket, hogy mennyire jól keres a neten, amikor pedig megkérdeztem, hogy jó oké, de előtte módszeresen tönkrekúrták, és telenyomták hamis információval az internetet, arra már nem reagált az oktatónk. Mondjuk nem tudom mit várt, megpróbáltak egy saleses promót eladni egy IT részlegnek mint oktatás, akik meg átláttak rajtuk, mint gyerek a szitán. Itt megemlíteném korábbi cikkeimet, amik a témában születtek. Egyes részei mellett még mindig kiállok, azóta azonban jó néhány dologban változott a véleményem, nem a technológia miatt, hanem az alkalmazói miatt. Így pl.: a képregényes témában is, illetve ezen kapcsolódva, hogy a pusztán generált tartalmak megérdemlik a jogvédelmet. Nem. Gale-en keresztül egyébként egy másik fallout-ot is nyomon követek, az pedig az amatőr írói réteg, akik chat gpt-vel írják a könyveiket és egymást buzdítják rá, hogy milyen jó lesz, mindeközben a könyve minőségileg a bányászbéka bokáját se súrolja. Amikor meg felhívod a figyelmét, hogy azzal, hogy GPT-be dobálja a szövegét eteti ezt az algoritmust akkor meg jön a "áhh, dehogy, olyat nem csinálnának". A generált borítók ocsmányságáról már ne is beszéljek, jelent meg olyan könyv, ahol meg sem próbálták elrejteni a borító eredetét (Lángvörös égbolt, hogy bloghoz közelit mondjak). Ezen a ponton ott vagyok, hogy ideje, hogy porig égjenek. Csak az a baj, hogy az összes opció kezd kifogyni, és az utolsó lehetőség az kb a belföldi terrorizmus kategóriáját súrolja. Mindeközben mindenki tapsikol neki, hogy "jajj de jó, hogy a cseti kigyűjti helyettem a vasárnapok dátumát 2326-ban"...

Utóirat: a cikk forrásául szolgáló ArsTechnika cikk url-je miatt járna amúgy egy pofon a sitenak.

via.: ArsTechnica