Enigmatyczny, malowany uśmiech „Mona Lisa” jest znany na całym świecie, ale ta słynna twarz ostatnio pokazała zaskakująco nowy zakres wyrazów, dzięki uprzejmości sztucznej inteligencji (AI).
W filmie udostępnionym na YouTube w dniu 21 maja trzy klipy pokazują niepokojące przykłady Mona Lisy, gdy porusza ustami i odwraca głowę. Została stworzona przez splotową sieć neuronową - rodzaj sztucznej inteligencji, która przetwarza informacje podobnie jak ludzki mózg, w celu analizy i przetwarzania obrazów.
Naukowcy wyszkolili algorytm, aby rozumiał ogólne kształty rysów twarzy i ich wzajemne zachowanie, a następnie stosował te informacje do zdjęć. Rezultatem była realistyczna sekwencja wideo nowych wyrazów twarzy z pojedynczej klatki.
W przypadku filmów Mona Lisa sztuczna inteligencja „nauczyła się” ruchu twarzy na podstawie zbiorów danych trzech ludzi, tworząc trzy bardzo różne animacje. Podczas gdy każdy z trzech klipów był nadal rozpoznawalny jako Mona Lisa, różnice w wyglądzie i zachowaniu modeli szkoleniowych nadawały wyraźne „osobowości” „żywym portretom”, Egorowi Zakharovowi, inżynierowi z Instytutu Nauki i Technologii Skolkovo, oraz Centrum AI AI (oba zlokalizowane w Moskwie), wyjaśnione na filmie.
Zakharov i jego koledzy wygenerowali także animacje ze zdjęć XX-wiecznych ikon kultury, takich jak Albert Einstein, Marilyn Monroe i Salvador Dali. Naukowcy opisali swoje odkrycia, które nie zostały poddane recenzji, w badaniu opublikowanym online 20 maja w czasopiśmie arXiv.
Tworzenie oryginalnych filmów takich jak te, znane jako deepfakes, nie jest łatwe. Ludzkie głowy są geometrycznie złożone i bardzo dynamiczne; Autorzy badania napisali, że modele 3D głowic mają „dziesiątki milionów parametrów”.
Co więcej, zgodnie z badaniami, ludzki system wizyjny bardzo dobrze identyfikuje „nawet drobne błędy” w modelowanych głowach ludzkich 3D. Widząc coś, co wygląda prawie na człowieka - ale nie do końca - wywołuje uczucie głębokiego niepokoju, znane jako efekt niesamowitej doliny.
AI wcześniej wykazało, że wytwarzanie przekonujących głębokich podróbek jest możliwe, ale wymagało wielu kątów pożądanego obiektu. W ramach nowego badania inżynierowie wprowadzili sztuczną inteligencję do bardzo dużego zestawu danych referencyjnych filmów wideo pokazujących ludzkie twarze w akcji. Naukowcy ustalili punkty orientacyjne twarzy, które będą miały zastosowanie do każdej twarzy, aby nauczyć sieć neuronową, jak zachowują się twarze w ogóle.
Następnie wytrenowali sztuczną inteligencję do używania wyrażeń referencyjnych do mapowania ruchu cech źródła. Dzięki temu sztuczna inteligencja mogła stworzyć sztuczną inteligencję nawet wtedy, gdy miał do zrobienia tylko jeden obraz, twierdzili naukowcy.
Więcej obrazów źródłowych zapewniło jeszcze bardziej szczegółowy wynik w końcowej animacji. Naukowcy napisali, że filmy utworzone z 32 obrazów, a nie tylko jednego, osiągnęły „idealny realizm” w badaniu użytkowników.