程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 用樹莓派實現對話機器人

用樹莓派實現對話機器人

編輯：關於PHP編程

用樹莓派實現對話機器人

最近用樹莓派實現了一個能和人對話的機器人，簡要介紹一下。

樹莓派（Raspberry Pi）是世界上最流行的微型電腦主板，是開源硬件的領導產品，它為學生計算機編程教育而設計，只有信用卡大小，且價格低廉。支持linux(debian)等操作系統。最重要的是資料完善，社區活躍。
我用的是樹莓派B+版本，基本配置是博通BCM2836處理器，4核900M主頻，1G RAM。

我的目標是做成一個和人對話的機器人，這就需要機器人有輸入設備和輸出設備。輸入設備是麥克風，輸出可以是HDMI、耳機或音響，我這裡用了音響。下面是我的樹莓派照片。4個USB接口分別連了無線網卡、無線鍵盤、麥克風、音響供電。

我們可以把機器人的對話分成三個部分：聽、思考、說。
“聽”，是把人說的話記錄下來，並轉換成文字。
“思考”，就是根據不同的輸入給出不同的輸出。比如，對方說“現在時間”，你就可以回答“現在是北京時間xx點xx分”。
“說”，是把文字轉換成語音，並播放出來。

這三個部分涉及到大量語音識別、語音合成、人工智能等技術，這些都是要花大量時間精力研究的，好在有些公司已經開放了接口給客戶使用。這裡，我選擇了百度的API。下面分別說明這三個部分的實現。

“聽”

首先是把人說的話錄制下來，我使用了arecord工具。命令如下：

arecord -D "plughw:1" -f S16_LE -r 16000 test.wav

其中，-D參數後接錄制設備，連接麥克風後，樹莓派上有2個設備：內部設備和外部usb設備，plughw:1代表使用外部設備。-f表示錄制的格式，-r表示聲音采樣頻率。由於後面提到的百度語音識別對音頻文件格式是有要求的，我們需要錄制成符合要求的格式。另外，在這裡我沒有指定錄制的時間，它會一直錄制下去，直到用戶按下ctrl-c。錄制後的音頻文件保存為test.wav。
接下來，我們要把音頻轉換成文字，即語音識別（asr），百度的語音開放平台提供了免費的服務，並支持REST API
文檔見： http://yuyin.baidu.com/docs/asr/57
流程基本就是獲取token，把需要識別的語音信息、語音數據、token等發送給百度的語音識別服務器，就能獲取到對應的文字。因為服務器支持REST API，我們可以用任何語言來實現客戶端的代碼，這裡使用的是python

# coding: utf-8
 

import urllib.request
import json
import base64
import sys

def get_access_token():
url = "https://openapi.baidu.com/oauth/2.0/token"
grant_type = "client_credentials"
client_id = "xxxxxxxxxxxxxxxxxx"
client_secret = "xxxxxxxxxxxxxxxxxxxxxx"

url = url + "?" + "grant_type=" + grant_type + "&" + "client_id=" + client_id + "&" + "client_secret=" + client_secret

resp = urllib.request.urlopen(url).read()
data = json.loads(resp.decode("utf-8"))
return data["access_token"]


def baidu_asr(data, id, token):
speech_data = base64.b64encode(data).decode("utf-8")
speech_length = len(data)

post_data = {
"format" : "wav",
"rate" : 16000,
"channel" : 1,
"cuid" : id,
"token" : token,
"speech" : speech_data,
"len" : speech_length
}

url = "http://vop.baidu.com/server_api"
json_data = json.dumps(post_data).encode("utf-8")
json_length = len(json_data)
#print(json_data)

req = urllib.request.Request(url, data = json_data)
req.add_header("Content-Type", "application/json")
req.add_header("Content-Length", json_length)

print("asr start request\n")
resp = urllib.request.urlopen(req)
print("asr finish request\n")
resp = resp.read()
resp_data = json.loads(resp.decode("utf-8"))
if resp_data["err_no"] == 0:
return resp_data["result"]
else:
print(resp_data)
return None

def asr_main(filename):
f = open(filename, "rb")
audio_data = f.read()
f.close()

#token = get_access_token()
token = "xxxxxxxxxxxxxxxxxx"
uuid = "xxxx"
resp = baidu_asr(audio_data, uuid, token)
print(resp[0])
return resp[0]

“思考”
這裡我使用了百度api store的圖靈機器人。其文檔見：http://apistore.baidu.com/apiworks/servicedetail/736.html
它的使用非常簡單，這裡不再贅述，代碼如下：

import urllib.request
 
import sys
import json

def robot_main(words):
url = "http://apis.baidu.com/turing/turing/turing?"

key = "879a6cb3afb84dbf4fc84a1df2ab7319"
userid = "1000"

words = urllib.parse.quote(words)
url = url + "key=" + key + "&info=" + words + "&userid=" + userid

req = urllib.request.Request(url)
req.add_header("apikey", "xxxxxxxxxxxxxxxxxxxxxxxxxx")

print("robot start request")
resp = urllib.request.urlopen(req)
print("robot stop request")
content = resp.read()
if content:
data = json.loads(content.decode("utf-8"))
print(data["text"])
return data["text"]
else:
return None

“說”
先需要把文字轉換成語音，即語音合成（tts）。然後把聲音播放出來。
百度的語音開放平台提供了tts的接口，並可配置男女聲、語調、語速、音量。服務器返回mp3格式的音頻數據。我們把數據以二進制方式寫入文件中。
詳見http://yuyin.baidu.com/docs/tts/136
代碼如下：

# coding: utf-8
 

import urllib.request
import json
import sys

def baidu_tts_by_post(data, id, token):
post_data = {
"tex" : data,
"lan" : "zh",
"ctp" : 1,
"cuid" : id,
"tok" : token,
}

url = "http://tsn.baidu.com/text2audio"
post_data = urllib.parse.urlencode(post_data).encode('utf-8')
#print(post_data)
req = urllib.request.Request(url, data = post_data)

print("tts start request")
resp = urllib.request.urlopen(req)
print("tts finish request")
resp = resp.read()
return resp

def tts_main(filename, words):
token = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
text = urllib.parse.quote(words)
uuid = "xxxx"
resp = baidu_tts_by_post(text, uuid, token)

f = open("test.mp3", "wb")
f.write(resp)
f.close()

得到音頻文件後，可以使用mpg123播放器播放。

mpg123 test.mp3

整合
最後，把這三個部分組合起來。
可以先把python相關的代碼整合成main.py，如下：

import asr
 
import tts
import robot

words = asr.asr_main("test.wav")
new_words = robot.robot_main(words)
tts.tts_main("test.mp3", new_words)

再使用腳本，調用相關工具：

#! /bin/bash
arecord -D "plughw:1" -f S16_LE -r 16000 test.wav
python3 main.py
mpg123 test.mp3

好了，現在你可以和機器人對話了。運行腳本，對著麥克風說句話，然後按ctrl-c，機器人就會回你話了。

上一頁:配置文件智能的備份和還原
下一頁:高並發低基數多字段任意組合查詢的優化

關於PHP編程

PHP 不如 C++ 嗎？

PHP 不如 C++ 嗎？昨天和一個前同事聊天，各種吐槽P

Ext.data.PagingMemoryProxy分頁一次性讀取數據的實現代碼

1 建立get.php get.php=> 復制代碼

PHP-生成縮略圖和添加水印圖-學習筆記，php-水印

PHP-生成縮略圖和添加水印圖-學習筆記，php-水印1.開

搭建虛擬主機步驟，搭建虛擬主機

搭建虛擬主機步驟，搭建虛擬主機

PHP生成Flash動畫的實現代碼

其中有一組映射到 SWF 動畫中的數據類型的對象：子圖形、

PyQt5系列教程(五)制作fastboot燒寫器

PyQt5系列教程(五)制作fastboot燒寫器軟硬件環境

熱門圖文

POJ 3159 Candies HDOJ 4612 Warm up PHP類中Static方法效率測試代碼 spring- No bean named shiroFilter is defined Revit API改變風管及管件尺寸賦值-jquery,數組關於的問題 PHP實現獲取圖片顏色值的方法 JSP組件commons-fileupload實現文件上傳，jsp文件上傳組件

欄目導航

PHP基礎知識 PHP綜合 PHP入門知識關於PHP編程