TTS输出 | Notion

Text to Speech(TTS)，即文本转语音。由于目前几乎实现了对于语音指令的操作，只需要使用语音输出，给予用户及时的语音反馈即可。在这里，我们开始关注TTS。

由于市面上在做TTS的厂商很多，大多都有了非常成熟的技术模型，因此无需从头进行语音的生成。

经调查，目前可以使用的TTS API如下：

搜狗
科大讯飞
百度
腾讯
微软
京东
亚马逊
捷通华声
阿里云
出门问问
有道
华为
...

在本次测试中，具体测试了以下几个厂商的TTS： 科大讯飞 合成的音频效果自然度高，音库多，涉及很多的场景，以及很多的外语音库。 阿里巴巴 部分音库的合成效果很好，例如艾夏，拟人化程度很高。百度放出的合成音库较少，质量一般。 灵伴科技音库合成音效果很好，有方言。 标贝科技合成的音频效果拟人化程度很高，有多个场景的风格。 微软Azure 合成声库多、有多种声线、语气，拟人程度很高，在线调用比较灵敏。