Microsoft Research Asia nastavlja s novim transhumanističkim programom pod nazivom VASA koji stvara “stvarna lica virtualnih likova koja govore s privlačnim vizualnim učinkovitim vještinama (VAS), s obzirom na jednu statičnu sliku i govorni audio isječak.”
Odjeljenje za umjetnu inteligenciju (AI) Microsofta u Aziji radilo je na programu kompilirajući stvarne pojedinačne slike ljudi, stvarni zvuk i u mnogim slučajevima različite kontrolne signale kao što su pokreti lica ljudi dok razgovaraju. Koristeći sve te podatke, Microsoft Research Asia generira pokretne slike lažnih ljudi koji bi jednog dana mogli zamijeniti stvarne voditelje vijesti i podcastere – barem one s toliko malo osobnosti i duše da bi roboti mogli obavljati svoj posao.
“Naš premijerni model, VASA-1, sposoban je ne samo proizvoditi pokrete usana koji su izvrsno sinkronizirani sa zvukom, već i uhvatiti širok spektar nijansi lica i prirodnih pokreta glave koji doprinose percepciji autentičnosti i živosti”, istraživanje tim napisao u radu o ovim najnovijim događajima.
“Osnovne inovacije uključuju holističku facijalnu dinamiku i model generiranja pokreta glave koji radi u latentnom prostoru lica te razvoj takvog ekspresivnog i rastavljenog latentnog prostora lica pomoću videozapisa. Kroz opsežne eksperimente uključujući procjenu skupa novih mjernih podataka, mi pokazuju da naša metoda značajno nadmašuje prethodne metode u različitim dimenzijama sveobuhvatno.”
Visokokvalitetni deepfakes
Metode koje koristi Microsoft Research Asia za razvoj ove vrste deepfakeova nalik na ljude proizvode video visoke kvalitete u kombinaciji s realističnom dinamikom lica i glave. Takav se video može generirati online u rezoluciji 512×512 s do 40 sličica u sekundi (FPS) i zanemarivom početnom latencijom.
Laički rečeno, tehnologija je toliko uvjerljiva da bi mnogi ljudi vjerojatno nasjeli na nju i pomislili da su ovo stvarni ljudi na njihovim ekranima. Samo oni najprobirljiviji moći će reći da nešto nije u redu s onim što vide.
“Utire put angažmanima u stvarnom vremenu s realističnim avatarima koji oponašaju ljudsko ponašanje u razgovoru”, ponosno tvrdi Microsoft Research Asia.
Ako ste zainteresirani vidjeti nekoliko primjera ovih jezivih AI slika koje se kreću i govore, to možete učiniti na Microsoft.com.
“Naša metoda sposobna je ne samo proizvesti dragocjenu sinkronizaciju zvuka usana, već i generirati širok spektar izražajnih nijansi lica i prirodnih pokreta glave”, kažu iz tvrtke.
“Može rukovati [sic] zvukom proizvoljne duljine i stabilno emitirati besprijekorne videozapise lica koja govore.”
Svrha istraživanja je osloboditi cijelo društvo ili vojsku virtualnih AI avatara, kaže Microsoft, ali ne brinite: sve to “stremi pozitivnim aplikacijama”, inzistira tvrtka.
“Nije namijenjeno stvaranju sadržaja koji se koristi za dovođenje u zabludu ili obmanu”, stoji u odricanju od odgovornosti na stranici. “Međutim, kao i druge srodne tehnike generiranja sadržaja, još uvijek bi se potencijalno mogla zloupotrijebiti za oponašanje ljudi.”
“Protivimo se bilo kakvom ponašanju za stvaranje obmanjujućeg ili štetnog sadržaja stvarnih osoba i zainteresirani smo za primjenu naše tehnike za unaprjeđenje otkrivanja krivotvorina. Trenutačno videozapisi generirani ovom metodom još uvijek sadrže artefakte koji se mogu identificirati, a numerička analiza pokazuje da još uvijek postoji praznina za postizanje autentičnosti pravih videozapisa.”
Navodni slučajevi pozitivne upotrebe takve tehnologije čitaju se poput parodije, a Microsoft tvrdi da može stvoriti “obrazovnu jednakost” dok “poboljšava pristupačnost za pojedince s komunikacijskim izazovima, nudi društvo ili terapeutsku podršku onima kojima je potrebna…”