Ogni licenziatario Vocaloid sviluppa la Biblioteca Singer, o un database di frammenti vocali campionati da persone reali. [ 2 ] Il database deve avere tutte le possibili combinazioni di fonemi della lingua di destinazione, [ 2 ], tra cui difoni (una catena di due fonemi diversi) e vocali sostenuta, così come polyphones con più di due fonemi, se necessario. [ 2 ] Ad esempio, la voce corrispondente alla parola "cantare" ([SIN]) può essere sintetizzato da concatenare la sequenza di difoni "#-s, SI , A, N-# "(# indica un fonema senza voce) con la vocale sostenuta. [ 11 ] Le modifiche del sistema Vocaloid il passo di questi frammenti in modo che si adatti alla melodia. Al fine di ottenere suoni più naturali, quattro diverse gamme di pitch o tre devono essere conservati in biblioteca. [ 13 ] [ 14 ] giapponese richiede 500 difoni per piazzola, mentre inglese richiede 2.500. [ 11 ] giapponese ha meno difoni perché ha un minor numero di fonemi e più suoni sillabici sono aperti sillabe terminanti in una vocale . In giapponese, ci sono fondamentalmente tre modelli di difoni contenente una consonante : sorda-consonante, vocale-consonante, e consonante-vocale. D'altra parte, l'inglese ha molte sillabe chiusa che termina in una, e consonante-consonante-consonante sorda e consonante difoni pure. Così, più difoni bisogno di essere registrata in una libreria inglese che in giapponese. A causa di questa differenza linguistica, una biblioteca giapponese non è adatto a cantare in inglese.
SINTESI Del MOTORE
Il motore di sintesi riceve le informazioni contenute nel punteggio dedicato MIDI chiamato Vocaloid messaggi MIDI inviati dal Score Editor, regola tono e timbro dei campioni prelevati nel dominio della frequenza, e giunti a sintetizzare voci che cantavano. [ 7 ] [ 2 ] Quando viene eseguito come Vocaloid VSTi accessibile da DAW, il bundle VST plug-in ignora la Score Editor e invia questi messaggi direttamente al motore di sintesi. [ 7 ]
Tempistica di adeguamento
Nel canto delle voci, la consonante insorgenza di una sillaba viene pronunciata prima della comparsa vocale pronunciata. [ 7 ] La posizione di partenza di una nota intitolata "Note-On" deve essere la stessa di quella dell'insorgere dell'insolvenza vocale, non l'inizio del sillaba. [ 7 ] Vocaloid mantiene il "punteggio di sintesi" in memoria per la temporizzazione del campione in modo che l'esordio vocale dovrebbe essere rigorosamente su "Note-On". [ 7 ] Nessun aggiustamento del calendario si tradurrebbe in ritardo.
Piazzola di conversione
Dal momento che i campioni sono registrati in diverse altezze, la conversione a passo è richiesto quando la concatenazione dei campioni. [ 2 ] Il motore calcola un passo desiderato dalle note e attacco parametri e vibrato, e quindi seleziona i campioni necessari dalla libreria. [ 7 ]
Timbre manipolazione
Il motore di leviga il timbro attorno alla giunzione dei campioni. [ 2 ] Il timbro di una vocale sostenuta è generata mediante interpolazione spettrale buste dei campioni circostante. [ 2 ] Ad esempio, quando concatenare una sequenza di difoni "SE, E, et "della parola inglese" set ", l'inviluppo spettrale di una ē sostenuta ad ogni frame viene generato tramite e interpolando alla fine di" SE "e" e "l'inizio di" ET ". [ 2 ]
Trasforma
Dopo la conversione pitch e manipolazione timbro, il motore si trasforma, come Inverse Fast Fourier Transform IFFT) all'uscita sintetizzato voci (. [ 2 ].
By: wikipedia.