VASA-1 kan omvandla foton till realistiska videor av personer

Microsofts AI-verktyg kan omvandla foton till realistiska videor av människor som pratar och sjunger

Men skaparna själva medger att det har potential att missbrukas.

Microsoft Research Asia har avslöjat ett nytt experimentellt AI-verktyg som kallas VASA-1, som kan ta en stillbild av en person - eller en ritning tillsammans med en ljudfil för att skapa en animerad livfull pratande person i realtid. Det har förmågan att generera ansiktsuttryck och huvudrörelser från en befintlig stillbild och de lämpliga läpprörelserna för att matcha tal eller en sång. Forskarna laddade upp massor av exempel på projektets sida, och resultaten ser tillräckligt bra ut för att de skulle kunna lura människor att tro att de är verkliga.

Se exempel i detta klipp om VASA-1

Medan läpp- och huvudrörelserna i exemplen fortfarande kan se lite robotiska och ur synkron vid närmare undersökning är det fortfarande tydligt att tekniken kan missbrukas för att enkelt och snabbt skapa deepfake-videor av verkliga människor. Forskarna själva är medvetna om den potentialen och har beslutat att inte släppa "en online-demo, API, produkt, ytterligare implementeringsdetaljer eller några relaterade erbjudanden" tills de är säkra på att deras teknik "kommer att användas ansvarsfullt och i enlighet med korrekta regler". De sa dock inte om de planerar att införa vissa skyddsåtgärder för att förhindra att illvilliga aktörer använder dem för skadliga ändamål, såsom att skapa deepfake-porr eller desinformationskampanjer.

Forskarna tror att deras teknik har massor av fördelar trots dess potential för missbruk. De sa att den kan användas för att förbättra utbildningsjämlikhet, samt för att förbättra tillgängligheten för dem med kommunikationsutmaningar, kanske genom att ge dem tillgång till en avatar som kan kommunicera för dem. Det kan också ge sällskap och terapeutiskt stöd för dem som behöver det, sa de, insinuerande att VASA-1 skulle kunna användas i program som erbjuder tillgång till AI-karaktärer som människor kan prata med.

Enligt papperet som publicerades med tillkännagivandet tränades VASA-1 på VoxCeleb2 Dataset, som innehåller "över 1 miljon uttalanden för 6 112 kändisar" som extraherades från YouTube-videor. Även om verktyget tränades på verkliga ansikten fungerar det också på konstnärliga foton som Mona Lisa, vilket forskarna roligt kombinerade med en ljudfil av Anne Hathaways virala tolkning av Lil Waynes Paparazzi. Det är så härligt, det är värt att titta på, även om du tvivlar på vilken nytta en teknik som denna kan ha.