Bu yazıyı, aşağıdaki kaynaktan Türkçeye çevirdim. Anlatılanları denemedim ve konu hakkında henüz yeterli bilgim olmadığından tam da bir çeviri yapamadım. Bu konuda desteğinizi yorumlarda beklerim...
DeepSpeech yüksek doğrulukta, açık kaynak Tensorflow tabanlı bir konuşmadan metne çeviricidir. Söylemeye gerek yok; en son ve en yeni makine öğrenme algoritmalarını kullanır.
Kurulumu ve kullanımı şaşırtıcı biçimde kolaydır. Bu eğitimde, başlamanıza yardımcı olacağım.
Hadi Başlayalım...
Bugün ses tanıma için bulut tabanlı birçok ses tanıma API'ı bulunmaktadır. Google Cloud Speech API ve IBM Watson Speech-to-Text API bunların en çok kullanılanları. Ama ya 3.parti bir ses tanıma hizmetine bağlı kalmak istemiyorsanız? Ya da ses tanıma tabanlı ve çevrimdışı kullanılabilen bir uygulama geliştirmek istiyorsanız? İşte o zaman Mozilla DeepSpeech kullanmayı düşünebilirsiniz.
DeepSpeech yüksek doğrulukta, açık kaynak Tensorflow tabanlı bir konuşmadan metne çeviricidir. Söylemeye gerek yok; en son ve en yeni makine öğrenme algoritmalarını kullanır.
Kurulumu ve kullanımı şaşırtıcı biçimde kolaydır. Bu eğitimde, başlamanıza yardımcı olacağım.
Gereklilikler
— Ubuntu 16.04 veya üstü işletim sistemi olan bir bilgisayar.
— Python 3.6
— Git large file Storage
DeepSpeech ile ilgili dosyalarınızı koymak için bir klasör oluşturun.
mkdir speech
cd speech
DeepSpeech'i kurmanın en kolay yolu pip aracını kullanmaktır. Aşağıdaki komutla bilgisayarınızda kurulu olduğundan emin olun:
sudo apt install python-pip
Ve şimdi, mevcut kullanıcınız için DeepSpeech'ü kurabilirsiniz.
pip3 install deepspeech
DeepSpeech'in konuşma tanıma özelliğini çalıştırabilmek için bir modele ihtiyacı vardır. Kendi modelinizi de eğitebilirsiniz ama şimdilik Mozilla tarafından yayınlanan önceden eğitilmiş bir model kullanalım. Nasıl indireceğiniz aşağıda açıklanmıştır:
wget https://github.com/mozilla/DeepSpeech/releases/download/v0.4.1/deepspeech-0.4.1-models.tar.gz
Yaklaşık 2gb veri indirilecek. Sabırlı olun. İndirme işlemi tamamlandıktan sonra tar komutunu kullanarak dosyaları çıkarın.
tar -xvzf deepspeech-0.4.1-models.tar.gz
Şimdi şu dosyalar elinizde olmalı:
models/
models/alphabet.txt
models/lm.binary
models/output_graph.pb
models/trie
import scipy.io.wavfile as wav
import os
import pyaudio
Şimdi model ve alfabe dosyalarını kullanarak bir model örneği oluşturmalısınız. Kurucu fonksiyon ayrıca şunları da bekler:
- Kullanılacak Mel-frequency cepstral coefficient (MFCC) özelliklerinin sayısı
- Context penceresi için bir boyut (size)
- Connectionist temporal classification decoder için bir beam genişliği
Bu sayı değerleri, eğitim sırasında kullanılan değerlerle eşleşmelidir. Eğer Mozilla'dan önceden eğitilmiş modeli kullanacaksanız aşağıdaki değerleri kullanabilirsiniz:
path=os.path.abspath(“.”)
BEAM_WIDTH = 500
LM_WEIGHT = 1.50
VALID_WORD_COUNT_WEIGHT = 2.10
N_FEATURES = 26
N_CONTEXT = 9
deep= Model(
— Python 3.6
— Git large file Storage
Kurulum
First create a virtual environment with python 3.6, than activate that environmentDeepSpeech ile ilgili dosyalarınızı koymak için bir klasör oluşturun.
mkdir speech
cd speech
DeepSpeech'i kurmanın en kolay yolu pip aracını kullanmaktır. Aşağıdaki komutla bilgisayarınızda kurulu olduğundan emin olun:
sudo apt install python-pip
Ve şimdi, mevcut kullanıcınız için DeepSpeech'ü kurabilirsiniz.
pip3 install deepspeech
DeepSpeech'in konuşma tanıma özelliğini çalıştırabilmek için bir modele ihtiyacı vardır. Kendi modelinizi de eğitebilirsiniz ama şimdilik Mozilla tarafından yayınlanan önceden eğitilmiş bir model kullanalım. Nasıl indireceğiniz aşağıda açıklanmıştır:
wget https://github.com/mozilla/DeepSpeech/releases/download/v0.4.1/deepspeech-0.4.1-models.tar.gz
Yaklaşık 2gb veri indirilecek. Sabırlı olun. İndirme işlemi tamamlandıktan sonra tar komutunu kullanarak dosyaları çıkarın.
tar -xvzf deepspeech-0.4.1-models.tar.gz
Şimdi şu dosyalar elinizde olmalı:
models/
models/alphabet.txt
models/lm.binary
models/output_graph.pb
models/trie
Import Edilecek Kütüphaneler
from deepspeech import Modelimport scipy.io.wavfile as wav
import os
import pyaudio
Şimdi model ve alfabe dosyalarını kullanarak bir model örneği oluşturmalısınız. Kurucu fonksiyon ayrıca şunları da bekler:
- Kullanılacak Mel-frequency cepstral coefficient (MFCC) özelliklerinin sayısı
- Context penceresi için bir boyut (size)
- Connectionist temporal classification decoder için bir beam genişliği
Bu sayı değerleri, eğitim sırasında kullanılan değerlerle eşleşmelidir. Eğer Mozilla'dan önceden eğitilmiş modeli kullanacaksanız aşağıdaki değerleri kullanabilirsiniz:
path=os.path.abspath(“.”)
BEAM_WIDTH = 500
LM_WEIGHT = 1.50
VALID_WORD_COUNT_WEIGHT = 2.10
N_FEATURES = 26
N_CONTEXT = 9
deep= Model(
path+”/models/output_graph.pb”,
N_FEATURES,
N_CONTEXT,
path+”/models/alphabet.txt”,
BEAM_WIDTH
N_FEATURES,
N_CONTEXT,
path+”/models/alphabet.txt”,
BEAM_WIDTH
)
Not: Kendi modelinizin bulunduğu dosya yolunu yazmalısınız.
Ardından, WAV dosyasını wavfile dosyasında bulunan read() fonksiyonunu kullanarak okuyabilirsiniz.
Önceden kaydedilmiş bir sesi kullanabilir veya python kütüphaneleriyle yaptığınız ses kayıtlarını kullanabilirsiniz.
fs,audio=wav.read(path+”/hin.wav”)
Son olarak, text-to-speech işlemini gerçekleştirmek için modelin stt() fonksiyonunu kullanın.
deep.stt(audio, fs)
Tebrikler! Ekranda kelimeler çıkacaktır.
Not: Kendi modelinizin bulunduğu dosya yolunu yazmalısınız.
Ardından, WAV dosyasını wavfile dosyasında bulunan read() fonksiyonunu kullanarak okuyabilirsiniz.
Önceden kaydedilmiş bir sesi kullanabilir veya python kütüphaneleriyle yaptığınız ses kayıtlarını kullanabilirsiniz.
fs,audio=wav.read(path+”/hin.wav”)
Son olarak, text-to-speech işlemini gerçekleştirmek için modelin stt() fonksiyonunu kullanın.
deep.stt(audio, fs)
Tebrikler! Ekranda kelimeler çıkacaktır.
Yorumlar
Yorum Gönder