Verbeterde toegang tot het TIMIT-spraakcorpus
Title | Verbeterde toegang tot het TIMIT-spraakcorpus |
Publication Type | Presentation |
Year of Publication | 2000 |
Conference Name | Dag van de Fonetiek 2000 |
Authors | Weenink, David |
Publisher | Nederlandse Vereniging voor Fonetische Wetenschappen |
Conference Location | Utrecht, The Netherlands |
Abstract | Het TIMIT-spraakcorpus op CDROM is een Amerikaans spraakbestand dat bestaat uit 6300 zinnen uitgesproken door 630 verschillende sprekers. Ongeveer 70% van de sprekers is man en 30% is vrouw. De sprekers stammen uit de 8 belangrijkste dialectregios van de Verenigde Staten. Alle 6300 zinnen zijn gelabeld op zinsnivo, woordnivo en foneemnivo. Voor elk van de 6300 uitgesproken zinnetje staat de informatie in 4 aparte bestanden op de CDROM:
Om de toegang tot de informatie in deze 4x6300 bestanden te verbeteren, hebben we alle, bijna 250.000, fonemen van dit corpus met additionele informatie in een database gezet. In de database zijn van elk foneem een groot aantal gegevens verzameld, waaronder de duur van het foneem, het foneemtype, de foneemcontext, woord- en zinsinformatie, klemtooninformatie en sprekerinformatie. Om het ruwe materiaal te kunnen lezen hebben we verder het computerprogramma praat zo aangepast dat de audio- en labelbestanden van de CDROM gelezen kunnen worden. |