研究人员指出,这是因为该系统的训练方向就是捕捉与年龄、性别等特征相关的视觉特点,而这些特点属于多位讲话者的共性。在海量资料的基础上,该系统只有在从未见过的讲话者身上找到足够多的共性之后,才能大致模拟出一幅人脸图像。因此这幅图像无法做到精确还原讲话者的面容。
此外,虽然该系统的资料库规模庞大,但毕竟无法涵盖全世界所有人,因此该系统模拟出来的图像仍需要进一步调整和完善。
目前该系统面临的最大挑战就是如何给这个资料库扩容,进而使其描绘的讲话者面容更加接近原型,但这项任务绝非易事,仍需研究人员进一步努力。