Modul pro Speech Dispatcher

Modul pro Speech Dispatcher - Dokumentace

Zadaní (jako semestrální práce z předmětu KKY/SVP)

Zadáním od pana Ing. Daniela Tihelky, Ph. D bylo vytvoření "pluginu" pro jednotné rozhraní k řečové syntéze Speech Dispatcher (Od softwarové laboratoře Free(b) Soft) tak, aby toto rozhraní pracující pod operačním systémem Linux mohlo využívat ke hlasové syntéze (v českém jazyce) syntetizér vyvinutý na Katedře kybernetiky Fakulty aplikovaných věd Západočeské univerzity v Plzni.

Postup řešení

Rozsah této práce byl předem těžko určitelný. K dispozici jsem měl zdrojové kódy (málo komentované) a dokumentaci ke Speech Dispatcheru (o které ještě bude řeč později), zdrojové kódy dummy knihovny katedrálního syntetizéru (dobře komentované) a zdrojové kódy rozdělaného "pluginu" od jiného studenta, který na úkolu v minulosti pracoval. Tyto zdrojové kódy na mém počítači nešly přeložit. Objevovalo se spoustu chybějících referencí v souborech od Free(b) softu, i když byly podle všeho všechny potřebné knihovny a soubory pro vývoj na mém počítači přítomny.

Po nastudování dokumentace a prozkoumání možností jsem pana Ing. Tihelku informoval o možnostech a požadavcích Speech Dispatcheru a výstupních modulů, které poskytují rozhraní pro komunikaci Dispatcheru s různými syntetizéry.

Standardním postupem při přidávání podpory nového syntetizéru Speech Dispatcherem (dále i jen jako spd) je vytvoření právě takového výstupního modulu podle specifikací daných dokumentací ke spd a syntetizérem, který se považuje za již hotovou samostatnou aplikaci. V našem případě je syntetizér přítomen jako knihovna a je tedy možné vytvořit exekutivu, která bude tuto knihovnu využívat a vzhledem ke Speech Dispatcheru chovat jako výstupní modul. Zvolili jsme tedy tuto cestu.

Při výše uvedeném řešení je třeba dát pozor na licencování, protože plná verze knihovny syntetizéru je distribuována jako uzavřený kód a Speech Dispatcher, včetně skeletů výstupních modulů s ním poskytovaných je open source pod licencí GPL verze 2. Není tedy možné volat GPL kód z ne-GPL kódu, pokud držitel dané GPL licence neučiní výjimku.

Ve finálním stavu by modul/syntetizér měl umožňovat běh syntetizéru a přehrávače v samostatných vláknech a umožnit přehrávání již vysyntetizovaných vzorků s případnou pokračující syntézou na pozadí (hlavně u delších textů).

Schéma znázorňující paralelní průběh syntézy a přehrávání

modře: probíhající syntéza, červeně: probíhající přehrávání

Přerušení přehrávání při příchodu zprávy s vyšší prioritou nebylo zatím řešeno. Mělo by být však v režii spd.

Popis mého modulu

Modul/syntetizér vyvíjím jako součást Spech Dispatcheru, tedy ve složce se zdrojovými kódy ostatních výstupních modulů za použití původních souborů pro řízení překladu upravených pro moji potřebu.

Výstupní moduly jsou psány v jazyce C, knihovna syntetizéru v C++
Soubory pro řízení překladu jsou generovány programem Automake

Cesty k souborům jsou relativní ke složce speech-dispatcher-0.6.7, kam se rozbalí zdrojové kódy dané verze Speech Dispatcheru.

/src/modules obsahuje zdrojové kódy pro výstupní moduly a podpůrné zdrojové soubory pro tvorbu dalších.
speech_tech_tts.c je zdrojový soubor mého modulu/syntetizéru, ve kterém jsou implementovány funkce určené v dokumentaci. Bližší informace lze získat studiem tohoto souboru a komentářů v něm.
Makefile.am obsahuje pokyny pro tvorbu Makefile pro řízení překladu modulu. (Překládá se pouze můj modul.)
Informace o ostatních includovaných souborech jsou v této části dokumnetace

Současný stav (ke 20. květnu 2009)

Podle všeho se modul s knihovnou Dummy Syntetizéru chová korektně a funguje správně

Faktory ztěžující práci

Málo komentovaný kód zdrojových souborů poskytovaných Free(b) Softem pro tvorbu vlastního výstupního modulu. Částečně nahrazeno popisem funkcí v dokumentaci na internetových stránkách Free(b) Softu.

Rozpory s dokumentací Speech Dispatcheru

Makro DBG() uváděné v dokumentaci pro provádění ladicích výpisů není funkční. Dokonce i výstupní modul pro espeak, který je součástí Speech Dispatcheru v distribučních balíčcích neprovádí ladicí výpisy z míst, kde je použito makro DBG(), ale pouze tam, kde je používáno makro MSG(). Možnost použití funkčního makra MSG() jsem se dozvěděl z changelogu nalezeného na internetu a datovaného do roku 2005.
S předchozím souvisí i chybové hlášení při překladu výstupního modulu s použitím makra INIT_DEBUG() ve funkci module_init(), jak je uvedeno v dokumentaci (Chybí reference). Ve zdrojových kódech aktuálních výstupních modulů se INIT_DEBUG() nevyskytuje.
Vzhledem k tomu, že problémy s logováním jsou i v jiných modulech, je tato chyba pravděpodobně na straně Free(b) Softu. Existuje zde ale i možnost, že je tato chyba částečně způsobena nastavením úrovně logování výstupních modulů na mé straně. (u výstupních modulů z distribučního balíčku) Nevysvětlovalo by to ale chybu při překladu modulu.
Pro umožnění ladicích výpisů z modulu jsem změnil použití makra DBG() na MSG() i v použitých podpůrných zdrojových souborech poskytovaných Free(b) Softem.

Soubory

Soubory poskytnuté Free(b) Softem pro vývoj výstupních modulů

Pracoval jsem se zdrojovými soubory Speech Dispatcheru verze 0.6.7.

module_main.c - Poskytuje výstupnímu modulu funkci main.
module_utils.c, module_utils.h - Obsahuje množství pomocných funkcí pro využití výstupním modulem.
spd_audio.h - Pokud syntetizér, pro který modul píšeme, nepřehrává zvuk sám, jsou zde poskytnuty funkce zjednodušující (abstrahující) práci se zvukovým zařízením a přehráváním vysyntetizovaných vzorků.

Knihovna syntetizéru

(Cesty jsou relativní ke složce SpeechTech)

/dist Obsahuje linky ke knihovně a k headeru
Odkazovaný header je na adrese /src
Odkazovaná knihovna je na adrese /build/dummy/src
/dummy/test obsahuje "program" pro testování knihovny. Zdrojovým kódem tohoto programu je main.cpp

Poznámka:
Konfigurační soubor pro testovací běh s adresou /dummy/src/SpeechTechTTS_Dummy.config musí mít proměnnou SndFile nastavenou na absolutní cestu zvukového souboru /dummy/data/Sentence.wav

Speech Dispatcher po instalaci

Umístění výstupních modulů Speech Dispatcheru po instalaci: /usr/lib/speech-dispatcher-modules/

Ce je třeba pro vývoj

Překládání Speech Dispatcheru ze zdrojových souborů

Pro překlad SpeechDispatcheru je třeba glib.h a dotconf.h

*buntu (8.04, 8.10)

dotconf.h: stáhnout balíček libdotconf-dev
glib.h: Při kompilaci dané knihovny ze zdrojových souborů se v GNOME objevují problémy s pádem gvfs. Proto doporučuji použít balíček z libglib2.0-dev repozitáře distribuce.
Pro kompilaci s podporou ALSA je třeba balíček libasound2-dev
Následuje postup pro Ubuntu 9.04

Fedora 10

potřebná knihovna se zde nejmenuje libglib2.0-dev, ale glib2-devel.
Pro kompilaci s podporou ALSA je třeba balíček alsa-lib-devel.

Poznámky

*buntu (8.04, 8.10)

Pro nastavení nainstalovaného (z repozitáře) Speech Dispatcheru za pomoci konfiguračního skriptu je třeba nainstalovat python-speechd (např. sudo apt-get install python-speechd).

Společný konfigurační soubor

Pokud je ke čtení konfiguračního souboru TTS použit iniparser, pak lze použít společný konfigurační soubor pro TTS i modul. V souboru ale nesmějí být shodně pojmenované parametry. V případě konfliktů se může modul přizpůsobit TTS.

Pod čarou

V souborech habiho projektu je i spd_audio.h s funkcí pro přehrávání.
Speech Dispatcher se sám stará o priority zpráv.

Obrázky z dokumentace ke Speech Dispatcheru

Současná architektura použivající výstupní moduly
Budoucí architektura použivající k výstupu TTS API Provider. V dokumentaci na stránkách Free(b) Softu je uvedeno následující:
- TTS API Provider bude poskytovat jednoduché nízkoúrovňové rozhraní k řečovým syntetizérům přes dobře definované TTS API.
- Poslední oficiální verze je 0.0.
Zde jsou uvedeny požadavky kladené na syntetizér při tomto řešení.

Vlákna

The pthread_cond_signal() call unblocks at least one of the threads that are blocked on the specified condition variable cond (if any threads are blocked on cond).
The pthread_cond_wait() and pthread_cond_timedwait() functions are used to block on a condition variable. They are called with mutex locked by the calling thread or undefined behaviour will result.
Funkce pthread_mutex_lock() vrací výsledek teprve tehdy, pokud se podařilo vlákno zamknout. V opačném případě ve funkci program zůstane "viset". Pokud po požadováno, aby při zamykání mutexu byl návrat z funkce okamžitý, je třeba použít funkci pthread_mutex_trylock() . Pak je dobré testovat návratovou hodnotu, zda bylo zamčení úspěšné, nebo ne.