Czy kiedykolwiek zbudowałeś mentalny obraz osoby, której nigdy nie widziałeś, wyłącznie na podstawie jej głosu? Sztuczna inteligencja (AI) może teraz to zrobić, generując cyfrowy obraz twarzy osoby przy użyciu tylko krótkiego klipu audio w celach informacyjnych.
Sieć neuronowa o nazwie Speech2Face - komputer, który „myśli” w sposób podobny do ludzkiego mózgu - została przeszkolona przez naukowców w zakresie milionów edukacyjnych filmów wideo z Internetu, które pokazały ponad 100 000 różnych ludzi rozmawiających.
Na podstawie tego zestawu danych Speech2Face nauczył się związków między wskazówkami głosowymi a pewnymi cechami fizycznymi na ludzkiej twarzy, jak napisali naukowcy w nowym badaniu. Następnie AI użył klipu audio, aby wymodelować fotorealistyczną twarz pasującą do głosu.
Odkrycia zostały opublikowane w Internecie 23 maja w przedruku arXiv i nie zostały zweryfikowane.
Na szczęście AI (jeszcze) nie wie dokładnie, jak konkretna osoba wygląda na podstawie samego głosu. Autorzy badania podali, że sieć neuronowa rozpoznała w mowie pewne markery wskazujące na płeć, wiek i pochodzenie etniczne, cechy wspólne dla wielu osób.
„W związku z tym model będzie wytwarzał jedynie przeciętnie wyglądające twarze” - napisali naukowcy. „Nie da zdjęć konkretnych osób”.
Sztuczna inteligencja pokazała już, że potrafi tworzyć niewiarygodnie dokładne ludzkie twarze, choć interpretacje kotów są trochę przerażające.
Twarze generowane przez Speech2Face - wszystkie skierowane do przodu i z neutralnymi wyrazami - nie pasowały dokładnie do ludzi stojących za głosami. Jednak zgodnie z badaniem obrazy zwykle rejestrowały prawidłowe przedziały wiekowe, pochodzenie etniczne i płcie poszczególnych osób.
Jednak interpretacje algorytmu były dalekie od ideału. Speech2Face wykazał „mieszaną wydajność” w konfrontacji z odmianami językowymi. Na przykład, gdy AI wysłuchało klipu azjatyckiego mężczyzny mówiącego po chińsku, program wytworzył obraz azjatyckiej twarzy. Jednak, gdy ten sam człowiek mówił po angielsku w innym klipie audio, sztuczna inteligencja wygenerowała twarz białego człowieka, jak podają naukowcy.
Algorytm wykazywał również stronniczość płciową, łącząc niskie głosy z twarzami mężczyzn i wysokie dźwięki z twarzami kobiet. A ponieważ zbiór danych szkoleniowych reprezentuje tylko filmy edukacyjne z YouTube, „nie reprezentuje on jednakowo całej populacji świata” - napisali naukowcy.
Slate poinformował, że inna obawa związana z tym zestawem danych wideo pojawiła się, gdy osoba, która pojawiła się w filmie na YouTube, była zaskoczona, gdy dowiedziała się, że jego podobieństwo zostało włączone do badania. Nick Sullivan, szef ds. Kryptografii w firmie Cloudflare w San Francisco zajmującej się bezpieczeństwem internetowym, nieoczekiwanie zauważył swoją twarz jako jeden z przykładów wykorzystywanych do szkolenia Speech2Face (i który algorytm odtworzył w przybliżeniu).
Sullivan nie wyraził zgody na pojawienie się w badaniu, ale filmy z YouTube w tym zestawie danych są powszechnie uważane za dostępne dla naukowców do wykorzystania bez uzyskiwania dodatkowych zezwoleń, według Slate.