Cihaz Üstünde Derin Öğrenme Kullanarak Ses Tanıma

Bu yazıyı, aşağıdaki kaynaktan Türkçeye çevirdim. Anlatılanları denemedim ve konu hakkında henüz yeterli bilgim olmadığından tam da bir çeviri yapamadım. Bu konuda desteğinizi yorumlarda beklerim...

https://medium.com/datadriveninvestor/speech-recognition-on-device-using-deep-learning-92a3bb83be9f

Hadi Başlayalım...

Bugün ses tanıma için bulut tabanlı birçok ses tanıma API'ı bulunmaktadır. Google Cloud Speech API ve IBM Watson Speech-to-Text API bunların en çok kullanılanları. Ama ya 3.parti bir ses tanıma hizmetine bağlı kalmak istemiyorsanız? Ya da ses tanıma tabanlı ve çevrimdışı kullanılabilen bir uygulama geliştirmek istiyorsanız? İşte o zaman Mozilla DeepSpeech kullanmayı düşünebilirsiniz.

DeepSpeech yüksek doğrulukta, açık kaynak Tensorflow tabanlı bir konuşmadan metne çeviricidir. Söylemeye gerek yok; en son ve en yeni makine öğrenme algoritmalarını kullanır.

Kurulumu ve kullanımı şaşırtıcı biçimde kolaydır. Bu eğitimde, başlamanıza yardımcı olacağım.

Gereklilikler

— Ubuntu 16.04 veya üstü işletim sistemi olan bir bilgisayar.
— Python 3.6
— Git large file Storage

Kurulum

First create a virtual environment with python 3.6, than activate that environment
DeepSpeech ile ilgili dosyalarınızı koymak için bir klasör oluşturun.

mkdir speech
cd speech

DeepSpeech'i kurmanın en kolay yolu pip aracını kullanmaktır. Aşağıdaki komutla bilgisayarınızda kurulu olduğundan emin olun:

sudo apt install python-pip

Ve şimdi, mevcut kullanıcınız için DeepSpeech'ü kurabilirsiniz.

pip3 install deepspeech

DeepSpeech'in konuşma tanıma özelliğini çalıştırabilmek için bir modele ihtiyacı vardır. Kendi modelinizi de eğitebilirsiniz ama şimdilik Mozilla tarafından yayınlanan önceden eğitilmiş bir model kullanalım. Nasıl indireceğiniz aşağıda açıklanmıştır:

wget https://github.com/mozilla/DeepSpeech/releases/download/v0.4.1/deepspeech-0.4.1-models.tar.gz

Yaklaşık 2gb veri indirilecek. Sabırlı olun. İndirme işlemi tamamlandıktan sonra tar komutunu kullanarak dosyaları çıkarın.

tar -xvzf deepspeech-0.4.1-models.tar.gz

Şimdi şu dosyalar elinizde olmalı:

models/
models/alphabet.txt
models/lm.binary
models/output_graph.pb
models/trie

Import Edilecek Kütüphaneler

from deepspeech import Model
import scipy.io.wavfile as wav
import os
import pyaudio

Şimdi model ve alfabe dosyalarını kullanarak bir model örneği oluşturmalısınız. Kurucu fonksiyon ayrıca şunları da bekler:
- Kullanılacak Mel-frequency cepstral coefficient (MFCC) özelliklerinin sayısı
- Context penceresi için bir boyut (size)
- Connectionist temporal classification decoder için bir beam genişliği

Bu sayı değerleri, eğitim sırasında kullanılan değerlerle eşleşmelidir. Eğer Mozilla'dan önceden eğitilmiş modeli kullanacaksanız aşağıdaki değerleri kullanabilirsiniz:

path=os.path.abspath(“.”)
BEAM_WIDTH = 500
LM_WEIGHT = 1.50
VALID_WORD_COUNT_WEIGHT = 2.10
N_FEATURES = 26
N_CONTEXT = 9

deep= Model(

path+”/models/output_graph.pb”,
N_FEATURES,
N_CONTEXT,
path+”/models/alphabet.txt”,
BEAM_WIDTH

)

Not: Kendi modelinizin bulunduğu dosya yolunu yazmalısınız.

Ardından, WAV dosyasını wavfile dosyasında bulunan read() fonksiyonunu kullanarak okuyabilirsiniz.

Önceden kaydedilmiş bir sesi kullanabilir veya python kütüphaneleriyle yaptığınız ses kayıtlarını kullanabilirsiniz.

fs,audio=wav.read(path+”/hin.wav”)

Son olarak, text-to-speech işlemini gerçekleştirmek için modelin stt() fonksiyonunu kullanın.

deep.stt(audio, fs)

Tebrikler! Ekranda kelimeler çıkacaktır.

Sonuç

Bu, başlangıç için güzel sonuçlar verecektir ama tabi Google API gibi bir sonuç beklemeyin. Kendi modelinizi eğitmek istiyorsanız Mozilla DeepSpeech'i kullanarak egzersiz yapabilirsiniz.

Bunu da Not Alayım

Bu Blogda Ara