您现在所在位置: 首页 > 睿道新闻

python能够实现语音识别的效果吗?怎样实现?

发布时间:2020-09-15点击数:


  今天我们就和大家分享一下用Python程序实现语音识别,它提供了其他技术无法比拟的交互性和可访问性。重要的是,在Python程序中实现语音识别非常简单。我们来了解一下python程序:SpeechRecognition的工作原理,PyPI支持哪些软件包,以及如何安装和使用语音识别软件包(一个全面易用的Python语音识别库),让你体会一下用Python程序实现语音识别是多么简单!


  ▌▌python语言识别工作原理概述。


  Python语音识别起源于20世纪50年代初贝尔实验室所做的研究。早期的语音识别系统只能识别一个说话者,词汇量只有十几个单词。现代语音识别系统已经取得了很大的进步,可以识别多个说话人,并且拥有大量的识别多种语言的词汇。


  当然,语音识别的第一部分是语音。通过麦克风,声音从物理声音转换成电信号,然后通过模数转换器转换成数据。一旦数字化,可以应用几种模型将音频转录成文本。


  大多数现代语音识别系统依赖于隐马尔可夫模型。它的工作原理是语音信号可以在很短的时间尺度(例如10毫秒)上近似为一个静态过程,即统计特性不随时间变化的过程。


  许多现代语音识别系统将在隐马尔可夫模型识别之前使用神经网络,并通过特征变换和降维技术简化语音信号。语音活动检测器(VAD)也可以用于将音频信号减少到可能只包含语音的部分。


  幸运的是,对于Python用户来说,有些语音识别服务是可以通过API在线使用的,而且大部分也提供了PythonSDK。


  ▌精选Python语音识别包。


  PyPI里面有一些现成的语音识别软件包。其中包括:


  阿皮亚.


  谷歌云语音。


  口袋狮身人面像.


  演讲认知.


  沃森-开发者-云.


  机智.


  一些软件包(如wit和apiai)提供了一些基本语音识别之外的内置功能,如识别说话者意图的自然语言处理功能。其他软件包,如谷歌云语音,专注于语音到文本的转换。其中,语音识别因其易用性而引人注目。


  语音识别需要输入音频,但在语音识别中检索音频输入非常简单。它不需要从头开始构建脚本来访问麦克风和处理音频文件,并且它可以在几分钟内自动检索和运行。


  SpeechRecognition库可以满足几种主流的语音API,因此非常灵活。GoogleWebSpeechAPI支持硬编码到SpeechRecognition库中的默认API密钥,无需注册即可使用。SpeechRecognition由于其灵活性和易用性,是编写Python程序的最佳选择。


  ▌安装语音签名。


  SpeechRecognition与Python2.6、2.7和3.3+兼容,但如果在Python2中使用,则需要一些额外的安装步骤。Python3.3+是本教程中所有开发版本的默认值。


  读者可以使用画中画命令从终端安装语音识别:


  $pipinstallSpeechRecognition.


  安装完成后,请打开解释器窗口并输入以下内容以验证安装:


  >>>>importspeech_recognitionassr.


  >>>sr.__版本__


  3.8.1'


  注意:不要关闭此会话,您将在接下来的几个步骤中使用它。


  如果处理现有的音频文件,只需要直接调用SpeechRecognition,注意一些具体用例的依赖关系。同时注意,安装PyAudio包是为了获取麦克风输入。



  • 友情链接

关注东软睿道公众号了解更多IT行业资讯

添加东小萌微信
获取更多IT学习资源