Nightshade - egy állítólagos eszköz a művészek kezében

Facebook Tetszik

2024. január 27. - Wittigen

Hiába csak egy eszköz, nem csillapodnak a kedélyek és mindenki tüzel mindenkire. Ennek a jelenleg is folyó háborúnak a farvizén jelent meg egy új eszköz, mely szeretné a művészek irányába billenteni a képzeletbeli mérleg nyelvét.

Az egyik legnagyobb problémája a művész társadalomnak, hogy képeiket az ő engedélyük nélkül begyűjtik az internetről különféle botok (amúgy nem teljesen, de ebbe most ne is menjünk bele) és bekerül képgenerátor data setbe, hogy aztán azon trenírozzák az algoritmusokat. De ezt hogyan akadályozod meg? Önmagában a crawling legális, sőt a kereső motorok (Google és Bing és társaik) folymatosa csinálják is, csinálniuk is kell, különben hogy találhatnál rá arra amit keresel, ha előtte a kereső motor nem indexeli, hogy xy url-en található ab tartalom, melyhez c darab kulcsszó köthető. Az nem megoldás, hogy nem posztolod munkásságod sehová, mert akkor se rivaldafény, sem pedig portfólió, és akkor megélni sem feltétlen fogsz a kreativitásodból. Ugyan vannak különféle opt-out rendszerek és robot/crawler tiltó megoldások, de ezeket nem kerül semmibe figyelmen kívül hagyni, rosszabb esetben jobbegérklikk-mentés másként metódust használ az ember. Na de akkor mit tehetsz? Mit szólnál hozzá, ha képedet aktív fegyerré változtathatád? Íme a Nightshade program.

Chicagói Egyetem kutatóinak nem ez az első programja, a Glaze nevű szoftverrel kezdték az ipart, aminek az a célja, hogy átverje a képfelismerő algoritmusokat, hogy ne, vagy máshogy ismerják fel a művész egyéni kézjegyeinek számító ecsetvonásokat, és így megakadályozza azok utánzását. Gyakorlatban ez így néz ki:

Balról jobbra: eredeti kép, gyenge álca preset, erős álca preset. Kicsiben gyakorlatilag annyi különbséget lehet látni, hogy több a színes pixelzaj a harmadik képen. De nagyfelbontás esetén szembetűnőek a különbségek.

Balról jobbra: eredeti álcázott kép, középen az eredetihez hasonló generált kép, jobb oldalt pedig miután az algoritmussal álcázott képeket etettek, és azt kérték, hogy készítsen az eredeti alkotóéhoz hasonló képet, nos a végeredménynek köze sincs az eredetihez.

A Nightshade kicsit máshogy működik. A program szerintük vélt probléma gyökeréhez közelebb támad. Úgy működik, hogy szintén számunkra elméletileg nem, vagy alig észrevehető változásokat eszközöl a képben, ami összezavarja a képfelismerő algoritmusokat. A végcél az, hogy ne tudja kategorizálni, és példához rendelni a képet, illetve pontosabban: mást lásson az algoritmus a képen. Gondoltam tolok is egy gyors tesztet, hogy mégis mit csinál a szoftver, és mit tapasztalok. Nos, íme: a képemet az internetről szedtem össze, egy boci, tóban állva.

Ezt átzavartam a szoftveren default-fast beállításon (mert se megfelelő GPU-val sem pedig végtelen idővel nem rendelkezem, és két kép így is 1 óra volt) és a végeredmény ez lett:

Különbséget nem sokat lehet látni csak azt, hogy szemmel láthatóan is romlott a képminőség.

De ezentúl nem igazán látsz te változást. A leírásuk alapján arra gondolna az ember, ha megetetném a végeredmény képet, akkor egy képfelismerőnek mást kellene látnia mint egy tehén a képen. De nem így van.


astica.ai képfelismerője	imagerecognize képfelismerője

Ezek szerint a képen még mindig egy tehén van, ahogyan tényleg az is van. De akkor mi történik? Valami biztos mert egy kilencszáz valahány kilobyte-os képből majdnem 2 megásat gyártott, illetve zajos lett a kép. Nos, ha kivonod egymásból a az eredetit és "mérgezett" képet, akkor hirtelen érdekes dolgokat látsz majd:

Ez van a neked látható zaj mögött, és ez a zaj hivatott megbolondítani a generátorok egy bizonyos pontját. Ehhez meg kell érteni, hogy hogyan működik a célzott algoritmus kép generálása.

A forrás képet (512x512x3 rgb csatorna) a VAE (variational autoencoder) összetömöríti egy 64x64x4-es latent representationre (egyszerűsített modelljei a betöltött adatoknak), utána ezek a latentek kerülnek a denoiserhez, ami X lépésben megpróbálja leszedni a zajt a képről, és a prompt mondja meg neki, hogy minek kéne lennie a zaj mögött. Utána a második fele az autoencodernek (VAE) kitömöríti ezt a latent cuccot, és csinál belőle egy teljes méretű képet. A denoising loopba nézzünk bele:

A denoiser nem más, mint egy unet (egy specifikus felépítésű ai model) ami megpróbálja kitalálni a meglévő kép és a prompt alapján, hogy hol van rajta a zaj és a sampler pedig a unet kimenete alapján leszedi róla. A Glaze a VAE-t támadta, a Nightshadre sokan azt gondolták, hogy majd a clipet fogja megtámadni, mert annak lett volna értelme, de ehelyett az unet részét támadja a folyamatnak, és azt próbálja elérni, hogy teljesen más zajt próbáljon megtanulni egy nightshade-es képről, mint amit alapból tenne. Nagyjából így működik a Nightshade.

A szoftver elterjedését nagyban gátolni fogja, hogy megint csak kártya típushoz van kötve, ráadásul nem is gyenge kártyákhoz, ha gyorsan akarod csinálni. Elég erős gépen CPU-ból is megoldható a dolog, erre külön opciót is biztosítanak a készítők, de erős gép esetén is idő és erőforrás igényes a dolog. Egy kép az általam használt beállításokkal fél óra, ezentúl pedig számottevő minőségromlással és méretnövekedéssel is jár. Ezentúl a program kérdés nélkül beleszemetel a home könyvtáradba kb +5,6 gigabájtnyi adatot, értem, hogy mit és, hogy mire kell a már említett adattömeg, azonban azt nem vagyok hajlandó elfogadni, hogy nem köti az orrodra, hogy ezt nem a program könyvtárába teszi, és azt sem mondja el, hogy hová fogja tenni. A másik, amit szeretnék megemlíteni, hogy nem véletlen a Stable Diffusion működési elvét magyaráztam, elméletileg csak ezt képes megmérgezni. Elméletileg, mert ismerősöm aki jobban forog ilyen körökben küldött néhány posztot, amik az ellenkezőjéről számolnak be. A másik amit nem teljesen értek, hogy pontosan mi az elképzelés? Ezek kizárólag a jövőben működhetnek, és csak akkor, ha valaki frissíti a datasetjét amibe bejut néhány száz, esetleg ezer ilyen kezelésen átesett kép. De ha a generátorod alapját adó dataset nem frissül, akkor nincs miről beszélni. Sőt, a vonatkozó kutatási papír azzal a feltételezéssel él, hogy a támadónak hozzáférése van magához a datasethez, ahová be tudja juttatni a már említett képeket, mely feltételezés neharagudjon a világ, de nevetséges, tekintve, hogy a művészek akiknek ezt az eszközt szánják, azok biztosan nem fognak hozzáféréssel rendelkezni, szóval marad az, hogy valaki beválogatja egybe. Arról nem is beszélve, hogy nagyon sok átnézett és értékelt dataset érhető el a neten, szóval még, ha el is kezdik megfertőzni a jövő setjeinek képeit még mindig tömérdek használható áll majd rendelkezésre, de ha el is fogynának, akkor igen, eleinte megnőne a dataset készítésére fordítandó idő, de mivel koncepció szinten lehet védekezni a technológia ellen (illetve rövid ránézésből el is vetik a képet a már láthatott artifacting miatt), így rövid ideig szétdobja egymás között a community az workloadot addíg, míg valaki nem csinál egy takarítót eszközt (a Glaze-re már van) és máris a múlté a Nightshade képessége (ami eleve gyenge, nem replikálható lábakon áll). Szóval nyitottak egy új frontot egy olyan harcban amit ezzel a eszközzel szerintem nem nyerhetnek meg. Azt a kompromisszumot látnám megoldásnak, hogy az alkotók licencelhetővé teszik a képeiket, hogy aztán azokat tényleg megvegyék. Mondjuk sokan szerintem ettől is ódzkodnak, és inkább amellett teszik le a voksukat, hogy pusztuljon az eszköz, attól függetlenül, hogy pl.: nekem lehetővé teszik, hogy nagy mennyiségű illusztrációt készítsek egy non-profit projekthez. De amíg nem gyorsul fel a törvényalkotók agya, addig egy macska egér harc van kialakulóban, és majd ezt a munkát is outsourcolják fejlődő országokba mint a helpdeskeket és valakinek majd az lesz a feladata, hogy az ilyen mérgezett képeket manuálisan szűrje (a nagy cégek már elméletileg így is kivitték magát a datasett kreálását, és az az automatizáció, hogy kicsi Chen jobbegérklikkel képeken). Marad igaz az örök érvnyű mondás: nyugaton a helyzet változatlan.

via.: Venturebeat, Nightshade