Text to Speech(TTS),即文本转语音。由于目前几乎实现了对于语音指令的操作,只需要使用语音输出,给予用户及时的语音反馈即可。在这里,我们开始关注TTS。

由于市面上在做TTS的厂商很多,大多都有了非常成熟的技术模型,因此无需从头进行语音的生成。

经调查,目前可以使用的TTS API如下:


在本次测试中,具体测试了以下几个厂商的TTS: 科大讯飞 合成的音频效果自然度高,音库多,涉及很多的场景,以及很多的外语音库。 阿里巴巴 部分音库的合成效果很好,例如艾夏,拟人化程度很高。 百度 放出的合成音库较少,质量一般。 灵伴科技音库合成音效果很好,有方言。 标贝科技合成的音频效果拟人化程度很高,有多个场景的风格。 微软Azure 合成声库多、有多种声线、语气,拟人程度很高,在线调用比较灵敏。