当前位置：首页 >新闻动态 >快手账号交易

语音自动识别，把外界的声音转写成文字，相当于人类的耳朵

2020-09-01

语音自动识别，把外界的声音转写成文字，相当于人类的耳朵。

2）NLP

分为NLU和NLG两部分， NLU负责理解内容，NLG负责生成内容。

前者是对外界输入的理解，后者是根据理解的内容生成对应的输出，相当于人类的大脑。

3）TTS

语音合成，NLG生成的文字由TTS由不同音色播报出来，相当于人类的嘴巴。

1）语料

语料是构成训练集和测试集的基本单位，可以是句子、短语，通过对大量语料学习帮助模型识别用户的意图。

2）训练集和测试集

顾名思义前者是用来训练模型进行意图识别的，而后者是用来测试模型学习效果如何的，二者都是由语料构成。

3）置信度

人为设定，超过了模型的置信度表示模型就会去理解（结果可能会理解错或理解对），小于置信度，强制模型不去理解。

1）机器学习模型

通过算法使得机器能从大量历史数据中学习规律，从而对新的样本做出智能识别或对未来做出预测，相当于培养模型“举一反三”的能力。

2）神经网络模型

通过大量的简单计算单元构成的非线性系统，在一定程度上模仿了人脑神经系统的信息处理、存储和检索功能，是对人脑神经网络的某种简化、抽象和模拟，相当于“由浅入深”的学习过程。

二、语音交互的应用场景

从目前商业市场划分来看，语音交互主要应用场景及细分赛道众多：智能家居、车载场景、医疗场景、教育场景和客服场景等。

从有无硬件载体上可简单粗暴的分为两大类：

产品定位于日常的“人机闲聊”。

可掌控简单或复杂场景人机交互，依赖于ASR、NLP和TTS，通常使用嵌入式系统与硬件完成对接，如常见的天猫精灵、Siri和车载机器人等，主要应用在智能机器人领域。

产品定位于“完成任务”，业务属性更强。

上游通过呼叫中心（FS）、电信运营商拿到路线和号码资源，下游触达用户完成活动营销、欠款通知和生活服务，主要应用于智能语音外呼和呼入，通常会有固定的“业务流程“作为客户引导手段。

目前智能语音行业由于应用场景、业务要求、客户体验或监管要求等原因都会使用封闭问答集来约定与客户交互的边界。

如在保险营销的业务中，客户若是询问了和业务不相关的内容（今天气温是多少度？晚餐有什么推荐的吗？）机器会使用提前设定好的固定的“兜底”话术来应答（你说啥，我不懂，请回答业务相关的内容）将用户重新拉回业务流程中，而不会与客户进行“不相关领域”的闲聊。

由于业务属性的特殊性，客服性质的外呼业务对监管和用户投诉格外关注，B端客户对应答话术的要求及意图识别的准确率要求较高。

所以除了使用语料来训练模型，基本上还会使用正则表达式和关键字的策略进行意图匹配的辅助。

NLP（自然语言处理）被誉为人工智能的掌上明珠，究其原因“交流”在人类社会演进中起到了最重要的作用。

作为“交流”最重要的途径和方式之一，语言伴随着人类社会的发展，历久弥新，形成了博大精深、非常复杂的体系。

不同的职业领域、不同的历史时期、也就是我们常说的“自然语言”，就像平常妈妈和你说话一样，不需要完整的语法、不需要主谓宾定状补的限定，拟人比喻倒装夸张对偶各种修辞一起来。

让孔子来理解我们今天的“语言”他其实也不知道我们在表达什么意思，更何况是机器人呢。

和妈妈交互的场景，在机器人眼里以下对话可能是这个样子的：

如果没有具体的对话场景，而且对于一个没有感情的机器，很难让他理解我们人类日常生活中的语言。