Veštačka inteligencija je veoma popularna tema poslednih deset godina, pogotovo je postao popularan ChatGPT. Softver, poznatiji kao ChatGPT je lansiran 30. novembra 2022. godine i za samo dva meseca, do januara 2023. godine, dostigao je brojku od 100 miliona korisnika, što ga čini najbrže rastućim softverom u istoriji.
Naziv “ChatGPT” potiče od reči “chat”, koja označava aplikacije za četovanje(razgovaranje s drugim ljudima ili automatizovanim agentom, tj. kompjuterom), dok GPT označava “Generative Pre-trained Transformers”(generativni prethodno obučeni transformator). GPT predstavlja jedan tip velikog jezičkog modela(Large Language Model) baziranog na veštačkoj neuronskoj mreži.
Neuronske mreže funkcionišu tako što procenjuju verovatnoću tačnosti odgovora, uzimajući za tačan odgovor onaj koji ima najveću verovatnoću da je ispravan. Na primer, ako želimo da prepoznamo koja je cifra napisana na slici, svakoj cifri ćemo dodeliti određenu vrednost, a tačan odgovor će biti onaj koji ima najvišu verovatnoću.
Cifra |
Verovotnoća da je tačan odgovor(%) |
0 |
2 |
1 |
3 |
2 |
5 |
3 |
1 |
4 |
3 |
5 |
6 |
6 |
5 |
7 |
7 |
8 |
3 |
9 |
65 |
U ovom primeru možemo videti da postoji 65% šansi da je 9 tražena cifra, I uzećemo onda to kao tačan odgovor. Ovde možemo primetiti da ne možemo biti sigurni koji odgovor je tačan, jer odgovor neuronske mreže je baziran na pretpostavci da je nešto verovatno tačno, a ne tačno.
Svaki odgovor koji daje neuronska mreža, ne možemo uzeti kao tačan. Znam da bi mnogi voleli da je obrnuto I da svaki odgovor koji nam daje neuronska mreža uzimamo zdravo za gotova, ali, za sada, nije tako.
Neuronske mreže se široko koriste u oblastima gde greške nemaju ozbiljne posledice, poput plasiranja reklama na platformama kao što su Google, YouTube ili Instagram. Ako se plasira pogrešna reklama, šteta je minimalna. Međutim, u situacijama gde je tačnost presudna, poput autonomnih vozila, još uvek nije postignut potpuni nivo autonomije (nivo 5), jer bi greške mogle izazvati ozbiljne posledice. Greške u tim oblastima se ne tolerišu.
Ovde ćemo se vratiti na ChatGPT, za koji smo utvrdili da neće uvek dati tačan odgovor, ali to je posledica tehničkih karakteristika sistema, a ne pokušaj propagande. Ali ako se postavimo u poziciju običnog građanina koji hoće samo da koristi(troši) stvari onda on neće proveravati tačnost informacija koje dobija, već će ih samo preuzeti I koristiti kao tačne. Ne kaže se bez razloga da živimo u potrošačkom društvu, jer na samo zanima kako ćemo nešto da potrošimo.
Iako RLHF pruža prednosti, on takođe ima svoje rizike. U ovoj tehnici, ljudi daju odgovore na određene upite, a zatim se ti odgovori koriste za treniranje mreže. To znači da se oslanjamo na ljudsku procenu koja nije uvek savršena. Postoji mogućnost da ljudi koji daju povratne informacije budu pristrasni ili imaju sopstvene ciljeve, što može dovesti do širenja propagande ili drugih oblika netačnih informacija.
Vreme generisanja odgovora je kratko, za samo par sekundi možemo generisati kraći tekst, koji kasnije može da posluži kao propaganda na internetu ili ostalim medijima.
Cena generisanja odgovora je zanemarljiva, kao I bilo koji drugi rad na kompjuteru koji traje par sekundi, I to ovaj softver čini pogodnim za propagandu.
Odgovor možemo pronaći u načinu na koji je nastao softver. Prvo je potrebno obezbediti podatke, onda se ti podaci koriste za treniranje neuronske mreže, kada je završeno testiranje mreže I kada su generisani parametri mreže, možemo početi da koristimo mrežu. Pošto smo rekli da su nam potrebni podaci, moramo da vidimo odakle su nabavljeni podaci. Da bi informacije koje daje sofver bile predstavljene kao kredibilne, bilo je potrebno da se obezbede informacije iz kredibilnih izvora kao što su naučni radovi ili tekstovi koje su pisale kredibilne novinske agencije. Zanimljivost je da zbog ovog sam softver ima izuzetan pravopis, jer su dokumente, iz kojih je softver učio, pisali profesionalci.
Pošto je ChatGPT treniran na 45 TB podataka, a znamo da 1 GB podataka sadrži oko 178 miliona reči, možemo reći da je softver testiran na oko 8 hiljada milijardi reči. Pošto su te tekstove(reči) pisali ljudi, a softver samo pokušava da kopira ljude, tako što od tih reči pokušava da sklapa nove tekstove, možemo videti da je preklapanje ljudskih I kompjuterskih tekstova veoma visoko. Kako se softver razvija, količine podataka koje koristi će biti sve veće, samim tim kompjuterski generisani tekstovi će biti još bliži ljudskim tekstovima.
Da bi se vršila propaganda potrebno je generisanje velikog broja dokumenata, po izuzetnoj niskoj ceni I kratkom vremenskom roku, sam tekst ne mora da bude činjenično tačan(jer većina ne proverava tačnost informacija) ali treba zvuči kao da ga je čovek pisao. Sve ovo se uklapa u razvoj novih softvera veštačke inteligencije, poput ChatGPT-a ili nekog drugog softvera, I ovi parametri sistema će biti još bolji u narednom vremenskom periodu.
Propaganda ne mora više da se odnosi na neke države, već sada I sam pojedinac može da vodi propagandu protiv određene države ili problema, uz pomoć modernog softvera jer je rad u velikoj meri automatizovan I ne zahteva veliku količinu ljudskog rada.
Za kraj, razvoj propagande ima veliki potencijal uz razvoj softvera poput ChatGPT-a.
Autor: Jovan Babić