Вот моя мама, например, не способна отличить результат работы очень качественного TTS-движка (Text-to-Speech) от записи живого мясного диктора. Более того, в некоторых случаях она принимает диктора за TTS и наоборот.
Я всегда различаю. Но у меня есть опыт.
А вы? Вы всегда понимаете, где говорит "механическая женщина", а где живой человек? И сколько секунд вам нужно для того, чтобы при входящем телефонном звонке выяснить, что в динамике проигрывается аудиозапись, а не живой голос?
P.S. Качественными TTS я называю системы оповещения в крупных современных аэропортах и на железнодорожных вокзалах.