Ahogy a cím is mondja: Amikor egy publikus datasetben szembe jön veled a saját orvosi célra készült képed, minek explicite megtiltottad az internetre való kerülését. Vajon mit lehet kezdeni a helyzettel? És ki felelős?
Sokak félreértésével ellenben, nem az történik, hogy letöltöd a pl a Stable Diffusion legfrissebb verzióját, és azt mondod neki, generálj nekem pornót és et violá pornó, hanem a mostani, de amúgy minden ilyen algoritmus úgy működik, hogy egy kiterjedt adathalmazon kell treníroztatonod, hogy egyáltalán értelmezhető eredményt kapj. Egy ilyen dataset összeszedésére két mód áll rendelkezésedre: vagy te vagy valaki más szedi össze. Az összeszedés módja vagy egyesével kurálod őket és a célodnak megfelelően válogatod össze a dolgokat, vagy szabadon eresztesz egy úgynevezet crawlert az interneten és mindent scrapelsz ami a publikus interneten van. Mind két metódus ignorálhatja a szerzőjogi státuszokat. Ezért van az, hogy egy csomó művész találkozott a műveivel, amit jogi szempontból sokak szerint kérdéses. Na de mi van akkor ha te MAGAD köszönsz vissza a tréning adathalmazban?
Ki az a Lapine?
Lapine egy "MI-művész" aki egy szép napon a Have I Been Trained oldal keresőjére feltötltött saját arcképére találatot kapott. Itt meg kell állnunk egy picit és ejtsünk szót a HIBT oldalról. A HIBT-t a Stable és egyéb hozzáhasonló algoritmusok futótűz szerű elterjedése hívta életre, és egy csapat művész működteti, akiknek elege lett, hogy csak úgy scrapelik a netet. Szóval vissza Lapine-hez. Lapine-t a Stable Diffusion csapata meghívta bétaesztelni a szoftvert, és ő elszörnyedt az "erőszakos" tartalom láttán amit a különböző teszterek csináltak (és megint, nincs semmi konkretizálás/bizonyíték) és emiatt elkezdett áskálódni a forrásul szolgáló dataszettben amit a LAION nonprofit szervezet szolgáltat, hogy mégis mit rejthet.
Ki az a LAION?
Ez egy nonprofit szervezet akiknek az a célja, hogy széleskörű gépitanulásra és egyéb algoritmus trenírozásra használható képi szetteket hozzanak létre. Na jó ez így nem igaz, amikor hozzáférést kérsz a LIAON-5B-hez akkor nem a képeket kapod meg, hanem egy adatbázist, ami a képek linkjét tartalmazza valamint a hozzá tartozó leírásokat, melyet aztán neked kell tényleges adathalmazzá rendezni. Hogyan szerzi be a képeket? Nos még csak nem is ők működtették a crawlereket, nem. Ők a Common Crawl nevű cégtől szerezték be a kezdeti adatszettet, amit aztán CLIP filteringgel párosítottak és így hozzák létre többek között a LAION-5B-t és még sok más szettet. Most hogy tisztáztuk ki kicsoda és mit csinált nézzük a problémát: Lapine Dyskeratosis Congenita-ban (csontvelő rák, ha jól értem) szenved, ez a betegség a bőrét, a csontszerkezetét, és gyakorlatilag mindenét érintette. Így 2013-ban műtőkés alá feküdt, mert muszáj volt neki, és ennek során helyreállították az álkapocs környékét az arcán. És erről készült egy előtte és utána fotó. és ő ezt megtalálta az SD által használt szettben. Egy a bibi: Ő kitöltötte ezt a forma nyomtaványt.
Amikor a bétatesztelés közben rákeresett a légcsöves képével magára akkor még nem kapta vissza a saját arcát, csak sok hasonlót hozzá, ami nem meglepő, cserébe aggasztó mert az azt jelenti, hogy több ilyen kép is kering, ki tudja, hogy ezek közül hányan engedték ezt meg, és hányan nem. Azonban amikor visszakapta azt az előtte és utána fotót, amit a mára elhunyt orvosa csinált róla, az már kissé kellemetlen és emellett egy fincsi HIPAA törvénysértés, ami miatt valakit nagyon meg lehetne lőcsölni. Csak kérdés hogy kit? Nem vonhatod felelőségre az algoritmusok készítőit akik a LAION szettjét használják, mert ők abban a hitben használják, hogy az nem tartalmaz illegális anyagot (és nem, most a szerzőjogi tartalom linkként való szerepeltetése nem ide tartozik). Sőt a LAION-t sem tudod felelsőégre vonni, elvégre ők egy olyan szettet nyújtanak, aminek a tartalmát más cég scrapelte a publikus internetről (Common Crawl amerikai , a LAION meg német nonprofit, és mind két országba legális a scraping), sőt nem is közvetlen a képeket adják, hanem csak a képekre mutató URL-eket. Nem nem. Itt sokkal mélyebb a probléma. Hogy a fészkes fenébe került ki a nyílt netre Lapine képe? Ezt maximum úgy lehet kideríteni, hogyha elindulunk a forrástól visszafelé, és felgöngyölítjük az ügyet. Lapine egy barátja segítségével megpróbálta a LAION Discordján keresztül töröltetni a linkeket, amire a LAION válasza egyértelműen az volt, amit már annó Arató András is megkapott: keresd meg azokat akik hostolnak, mi csak az URL-t adjuk. Ez mondjuk részben igaz is, de csak részben, a LAION igazán megtehette volna, hogy a megfelelő azonosítás után kiszedi a szettből a kérdéses linkeket, amennyiben biztosít megfelelő azonosítást. Ja megfelelő azonosítás. Ugye Lapine nem maga kérvényezte az Discordon az eltávolítást, hanem egy barátján keresztül, ami az egyik legrégebbi trükk az internetes boltban, amit meg bárki mondhat. Illetve a következő állítás is problémás:
Szeretném ha lenne rá mód, hogy bárki kérhetné a rá vonatkozó információk eltávolítását anélkül, hogy magáról bármi személyes infót is fel kellene fedni.
Na most egy azonosításhoz legalább egy személyi vagy egyéb irat kell, hogy tényleg te vagy te, legalábbis kellett, mikor ismerősnek kellett visszaszerezni egy accountot, ami anno facebook áteresztéssel volt regisztrálva, csak nem működött az oldal loginja. Ha ezt elfeledjük, akkor az utat nyit egy pandora szelence jellegű helyzetnek, ahol aztán majd bárki kérhet bárkinek az eltávolítását, mert úgyse azonosítják őt. Lapine esete (meg más egyéb hasonszőrű orvosi képek esete, akiknek a tulajai még nem is tudnak róla feltétlen) azonban egyediek, és teljesen másképpen kezelendőek, mint azok a dolgok amitől a művész társadalom pillanatnyilag retteg és forrong, de hál istennek, erre ténylegesen ott van a HIPAA és annak teljes következménye, csak ezt az egész helyzetet csak egy módon lehet felgöngyölíteni: hivatalos ügyvédi/bírói felszólítással elindulni visszafelé egészen addig, míg el nem jutsz vissza az orvosodig vagy legalább nagyon közel, és utána a pokolra bírságolni az illetőt aki szándékosan vagy felelőtlenül eladta vagy nem megfelelően kukázta ki. Csakhogy ez idő és sok-sok pénz, ami nem biztos, hogy Lapinenak megadatik, így az egyetlen esélye egy közös per lenne lenne, amire minden esély meg van, mert nem egy orvosi kép van a szettben, de sajnálatos, hogy lehet, hogy sokaknak csak ez lenne az egyetlen esélyük.
Ezért is mondtam, hogy nagyon gyorsan kellene a jognak fejlődnie, különben a rövidtávú félelmek a teljes tönkretétel felé fognak elhúzni, amire már láthattunk példát az előző cikkben. Két dolgot lenne fontos tenni: a LAION-t kötelezni arra, hogy megfelelő azonosítás után vakarják tisztára a szettjükben megtalálható linkeket, illetve ezeket adják át egy erre specifikusan létrehozott csoportnak, akik szépen elindulnak visszafelé a linkeken és elkezdik felgöngyölíteni, hogy kitől és honnan szedték össze ezeket a képeket, és megpróbálják behajtani a HIPAA törvénysértést az elkövetőkön, úgy, hogy ez a érintetteknek egy petákjába sem kerül, és lehetőleg minél egyszerűbb legyen erre jelentkezni.
via.: arstechnika