春节假期清晨,你刚睁开眼,随口一句:“今天天气怎么样?”话音刚落,手机语音助手立刻回答今天的天气情况。这看似简单的对话背后,其实藏着一场精密的“人机对话”工程。
从“声音”到“信号”: 音频特征的提取
当你对着手机说话时,声音会以声波的形式通过空气传到麦克风,进而转换成一串连续起伏的电信号。但对手机的处理系统来说无法直接“理解”。它需要把这串连续信号“切开”,提取出机器能处理的数字特征。
首先,系统会把连续的语音切成20~30毫秒的微小片段,我们称之为“帧”;接着,用数学工具把每帧声音进行处理,最终得到一张频谱图,即声音的“数字指纹”;最后,系统会模拟人耳对声音频率的感知习惯,对这张频谱图进行筛选和压缩,最终提炼出一组最能代表这帧声音的数字系数。
简单来说,这一步的核心目标就是让手机先“听清”你发出的每一个声音。
从“音”到“字”: 声学模型的魔法
有了声音的“数字指纹”,下一步就是确定这些声音对应哪些音节或汉字。此时,就轮到声学模型登场了。
当前的声学模型能像人类一样“记住上下文”。更聪明的是,现代语音识别系统可以做到直接将输入的音频转化为文字。其中最关键的技术:连接时序分类,能自动对齐长短不一的声音和文字,哪怕你说话快慢不一,系统也能准确识别。
从“字”到“意”: 语言模型来纠错
只靠声音识别出文字还不够,有时候难免会出现“音对但字错”的情况,这就需要语言模型来“把关”。它的作用,就是根据我们日常说话的习惯,判断哪种文字组合更合理、更符合语义。
如今的语音识别系统能够通过神经网络语言模型,理解更长的上下文,就像我们说话会结合前后语境一样。由此,避免出现让人费解的错误。
最终决策: 解码器做出“最优选择”
经过前面三步,系统不会只给一个结果,反而会列出好几个可能的答案。
这时候就该解码器“出手”了,它一方面会检查答案与接收声音的匹配度,另一方面则会根据日常说话习惯综合判断,最终选出最合适、最正确的答案。这一整套操作不到一秒就能完成,使我们说话后能马上拿到识别结果。
来源:科普中国综合整理