(资料图片)
今天,人工智能对声音的处理,还主要集中在语音识别上。当然语音识别对于人工智能的重要性是不言而喻的。能够让一台机器听懂我们说的话,或者听从我们的命令,一定是一件振奋人心的事情。
不过,就人工智能的终极目标而言,语音识别只是人工智能听觉的一个部分。人工智能的听觉系统包含的内容远比语音识别多很多。
当一个人工智能系统在接受到声音的刺激时,首先应该做出这些反应和判断:这是什么声音?发出这声音的东西在哪里?
前一个问题属于语音识别的问题,首先对这段语音进行识别,判断这个声音是人说话的声音,是鸟鸣狗叫的声音,还是汽车机器发出的声音,或者某个不知名的东西发出的声音。其实语音识别可以分为两个步骤来完成。第一个步骤首先识别声音的种类,是噪声、是音乐、是人类的语言还是动物的鸣叫,如果是动物的鸣叫,还要能够知道是什么动物发出的声音。第二个步骤便是根据声音的种类来进行相应的处理,比如如果是说话声,则去识别说话的内容。
第二个问题便是声源定位的问题,处理好了这个问题便能让我们的机器知道,发出这个声音的东西到底藏在哪里。如果必要的话,还可以把这个东西找出来研究研究。我们知道人类是可以通过声音来确定发声物体的位置的。我们不但能够通过声音判断声源的方向,还能通过声音判断声源的远近。尽管这种定位并不准确,但是却对人类的正常生活起着重要的作用。有些时候,我们不必通过眼睛去看就可以通过声音避让身后的汽车。盲人甚至可以根据各种声音构建出自己周围什么地方有什么东西的立体图来。
声源定位的另外一个好处就是,让我们的人工智能机器能够通过听到的声音来寻找物体。假如你制造了一台机器人,你在楼上阳台喊它的名字,它虽然听到了你的呼喊,但却左顾右盼就是不知道你在哪里,这样的机器人岂不是很白痴?
所以对于一个人工智能听觉系统,应该包含这些内容:
一、判断是什么东西发出的声音,即根据听到的声音来判断声源是什么,比如发出的声音的是人、是某种动物、或者是机器、也或者是风雨声、雷电声、流水声等。如果这个声音是人类的语言,则进行语言识别。
二、判断声音是从哪里发出来的。从而能够找到声源的位置。
三、对于不能识别的声音,进行保存处理,以便后期自我学习之用。