Orodha ya maudhui:

Utambuzi wa Hotuba Kutumia API ya Hotuba ya Google na Python: Hatua 4
Utambuzi wa Hotuba Kutumia API ya Hotuba ya Google na Python: Hatua 4

Video: Utambuzi wa Hotuba Kutumia API ya Hotuba ya Google na Python: Hatua 4

Video: Utambuzi wa Hotuba Kutumia API ya Hotuba ya Google na Python: Hatua 4
Video: Keeping the Heart | John Flavel | Christian Audiobook 2024, Novemba
Anonim
Utambuzi wa Hotuba Kutumia API ya Hotuba ya Google na Chatu
Utambuzi wa Hotuba Kutumia API ya Hotuba ya Google na Chatu

Utambuzi wa Hotuba

Utambuzi wa Hotuba ni sehemu ya Usindikaji wa Lugha Asilia ambayo ni uwanja mdogo wa Akili ya bandia. Kuiweka kwa urahisi, utambuzi wa usemi ni uwezo wa programu ya kompyuta kutambua maneno na vishazi katika lugha inayozungumzwa na kuibadilisha kuwa maandishi yanayoweza kusomwa na wanadamu. Inatumika katika matumizi kadhaa kama mifumo ya msaidizi wa sauti, mitambo ya nyumbani, mazungumzo ya sauti, roboti inayoingiliana na sauti, akili ya bandia na nk.

Kuna APIs tofauti (Interface Programming Interface) ya kutambua hotuba. Wanatoa huduma ama bure au kulipwa. Hizi ni:

  • CMU Sphinx
  • Utambuzi wa Hotuba ya Google
  • API ya Hotuba ya Wingu la Google
  • Wit.ai
  • Utambuzi wa Sauti ya Microsoft Bing
  • Houndify API
  • Hotuba ya IBM Kuandika
  • Kugundua Hotword ya Snowboy

Tutatumia Utambuzi wa Hotuba ya Google hapa, kwani hauhitaji ufunguo wowote wa API. Mafunzo haya yanalenga kutoa utangulizi wa jinsi ya kutumia maktaba ya Utambuzi wa Hotuba ya Google kwenye Python kwa msaada wa kipaza sauti ya nje kama ReSpeaker USB 4-Mic Array kutoka Seeed Studio. Ingawa sio lazima kutumia kipaza sauti ya nje, hata maikrofoni iliyojengwa ya kompyuta ndogo inaweza kutumika.

Hatua ya 1: Spika ya USB ya 4-Mic

Spika ya USB 4-Mic Array
Spika ya USB 4-Mic Array
Spika ya USB 4-Mic Array
Spika ya USB 4-Mic Array
Spika ya USB 4-Mic Array
Spika ya USB 4-Mic Array

ReSpeaker USB Mic ni kifaa cha kipaza sauti cha quad iliyoundwa kwa AI na matumizi ya sauti, ambayo ilitengenezwa na Seeed Studio. Inayo utendaji wa hali ya juu wa 4, maikrofoni ya omnidirectional iliyojengwa kuchukua sauti yako kutoka mahali popote kwenye chumba na viashiria 12 vya RGB vya LED vinavyopangwa. ReSpeaker USB mic inasaidia mifumo ya uendeshaji ya Linux, MacOS, na Windows. Maelezo yanaweza kupatikana hapa.

ReSpeaker USB Mic inakuja katika kifurushi kizuri kilicho na vitu vifuatavyo:

  • Mwongozo wa mtumiaji
  • Spika ya USB Mic Array
  • USB ndogo kwa Cable USB

Kwa hivyo tuko tayari kuanza.

Hatua ya 2: Sakinisha Maktaba zinazohitajika

Kwa mafunzo haya, nadhani unatumia Python 3.x.

Wacha tuweke maktaba:

pip3 kufunga HotubaRecognition

Kwa MacOS, kwanza utahitaji kusanikisha PortAudio na Homebrew, na kisha usakinishe PyAudio na pip3:

pombe kufunga portaudio

Tunaendesha chini ya amri ya kufunga pyaudio

pip3 kufunga pyaudio

Kwa Linux, unaweza kusanikisha PyAudio kwa kufaa:

Sudo apt-get kufunga python-pyaudio python3-pyaudio

Kwa Windows, unaweza kufunga PyAudio na bomba:

bomba kufunga pyaudio

Unda faili mpya ya chatu

nano kupata_index.py

Bandika kwenye get_index.py chini ya kijisehemu cha nambari:

kuagiza pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') kwa i katika masafa (0, numdevices): ikiwa (p.get_device_info_by_host_api_device_index (0, i).get ('maxInputChannels) '))> 0: chapa ("Kitambulisho cha Kifaa cha Kuingiza", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Tumia amri ifuatayo:

python3 pata_index.py

Kwa upande wangu, amri inatoa pato lifuatalo kwa skrini:

Kitambulisho cha Kifaa cha Kuingiza 1 - ReSpeaker 4 Mic Array (UAC1.0)

Kitambulisho cha Ingizo cha Kifaa 2 - Maikrofoni Hewa ya MacBook

Badilisha kifaa_index iwe nambari ya faharisi kulingana na chaguo lako katika kijisehemu cha nambari chini.

kuagiza hotuba_kutambuliwa kama sr

r = sr. Kutambua () hotuba = sr. Mikrofoni (kifaa_index = 1) na hotuba kama chanzo: chapa ("sema kitu! …") audio = r.adjust_for_ambient_noise (chanzo) audio = r.sikiliza (chanzo) jaribu: recog = r.recognize_google (audio, language = 'en-US') chapa ("Umesema:" + recog) isipokuwa sr. UnknownValueError: print ("Utambuzi wa Hotuba ya Google haukuweza kuelewa sauti") isipokuwa sr. RequestError as e: print ("Haikuweza kuomba matokeo kutoka kwa huduma ya Utambuzi wa Hotuba ya Google; {0}". Fomati (e))

Faharisi ya kifaa ilichaguliwa 1 kwa sababu ya ReSpeaker 4 Mic Array itakuwa kama chanzo kuu.

Hatua ya 3: Nakala-kwa-usemi katika Python na Maktaba ya Pyttsx3

Kuna API kadhaa zinazopatikana kubadilisha maandishi kuwa hotuba katika chatu. Moja ya API hizo ni pyttsx3, ambayo ni kifurushi bora zaidi cha maandishi-kwa-hotuba kwa maoni yangu. Kifurushi hiki kinafanya kazi katika Windows, Mac, na Linux. Angalia nyaraka rasmi ili uone jinsi hii inafanywa.

Sakinisha kifurushi Tumia bomba kusanikisha kifurushi.

bomba funga pyttsx3

Ikiwa uko katika Windows, utahitaji kifurushi cha ziada, pypiwin32 ambayo itahitaji kupata API ya hotuba ya asili ya Windows.

bomba funga pypiwin32

Badilisha maandishi kuwa maandishi ya chatu ya chiniHapa chini ni kijisehemu cha nambari cha maandishi hadi usemi ukitumia pyttsx3:

kuagiza pyttsx3

injini = pyttsx3.init ()

Mali.setProperty ('kiwango', 150) # Asilimia ya kasi

injini.setProperty ('kiasi', 0.9) # Juzuu 0-1

engine. sema ("Hello, world!")

injini.kimbiaNgojea ()

Hatua ya 4: Kuiweka Pamoja: Kujenga Utambuzi wa Hotuba na Python Kutumia API ya Utambuzi wa Hotuba ya Google na Maktaba ya Pyttsx3

Nambari iliyo hapa chini inawajibika kutambua hotuba ya wanadamu kwa kutumia Utambuzi wa Hotuba ya Google, na kubadilisha maandishi kuwa hotuba kwa kutumia maktaba ya pyttsx3.

kuagiza hotuba_kutambuliwa kama sr

kuagiza injini ya pyttsx3 = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr Microphone (device_index = 1) na usemi kama chanzo: audio = r. Ulisema: "+ recog) engine.runAndWait () isipokuwa sr. UnknownValueError: engine.say (" Utambuzi wa Hotuba ya Google hauwezi kuelewa sauti ") engine.runAndWait () isipokuwa sr. RequestError as e: engine.say (" Haikuweza. omba matokeo kutoka kwa huduma ya Utambuzi wa Hotuba ya Google; {0} ". fomati (e)) engine.runAndWait ()

Inachapisha pato kwenye terminal. Pia, itabadilishwa kuwa hotuba pia.

Ulisema: London ni mji mkuu wa Uingereza

Natumai sasa una uelewa mzuri wa jinsi utambuzi wa hotuba unavyofanya kazi kwa ujumla na muhimu zaidi, jinsi ya kutekeleza hiyo kwa kutumia API ya Utambuzi wa Hotuba ya Google na Chatu.

Ikiwa una maswali yoyote au maoni? Acha maoni hapa chini. Endelea kufuatilia!

Ilipendekeza: