Se exempel i detta klipp om VASA-1
Medan läpp- och huvudrörelserna i exemplen fortfarande kan se lite robotiska och ur synkron vid närmare undersökning är det fortfarande tydligt att tekniken kan missbrukas för att enkelt och snabbt skapa deepfake-videor av verkliga människor. Forskarna själva är medvetna om den potentialen och har beslutat att inte släppa "en online-demo, API, produkt, ytterligare implementeringsdetaljer eller några relaterade erbjudanden" tills de är säkra på att deras teknik "kommer att användas ansvarsfullt och i enlighet med korrekta regler". De sa dock inte om de planerar att införa vissa skyddsåtgärder för att förhindra att illvilliga aktörer använder dem för skadliga ändamål, såsom att skapa deepfake-porr eller desinformationskampanjer.
Forskarna tror att deras teknik har massor av fördelar trots dess potential för missbruk. De sa att den kan användas för att förbättra utbildningsjämlikhet, samt för att förbättra tillgängligheten för dem med kommunikationsutmaningar, kanske genom att ge dem tillgång till en avatar som kan kommunicera för dem. Det kan också ge sällskap och terapeutiskt stöd för dem som behöver det, sa de, insinuerande att VASA-1 skulle kunna användas i program som erbjuder tillgång till AI-karaktärer som människor kan prata med.
Enligt papperet som publicerades med tillkännagivandet tränades VASA-1 på VoxCeleb2 Dataset, som innehåller "över 1 miljon uttalanden för 6 112 kändisar" som extraherades från YouTube-videor. Även om verktyget tränades på verkliga ansikten fungerar det också på konstnärliga foton som Mona Lisa, vilket forskarna roligt kombinerade med en ljudfil av Anne Hathaways virala tolkning av Lil Waynes Paparazzi. Det är så härligt, det är värt att titta på, även om du tvivlar på vilken nytta en teknik som denna kan ha.