72. (Diciembre 2015) Música y probabilidad (II)
Imprimir
Escrito por Paco Gómez Martín (Universidad Politécnica de Madrid)   
Miércoles 09 de Diciembre de 2015

1. El modelo rítmico

En esta segunda entrega de la serie Música y probabilidad vamos a examinar los modelos computacionales del ritmo y, en particular, el de Temperley [Tem10], que es un modelo probabilístico y computacional. Seguiremos la exposición que hace Temperley en su libro. En el artículo pasado [Góm16] discutimos la pertinencia del estudio de las matemáticas en la formación de los músicos y en concreto la probabilidad así como los problemas que hay en su enseñanza. Los artículos que siguen en esta serie tienen un cierto nivel matemático y es posible que a algunos lectores les cueste seguirlo, sobre todo a los de menos formación matemática. He intentado mantener el nivel de formalización lo más bajo posible sin comprometer la precisión con el fin de hacer el texto lo más divulgativo posible. Es un poco sorprendente, pero hasta lo que nuestro conocimiento alcanza no existen textos de probabilidad dirigidos exclusivamente a músicos. Es una laguna que habría que cubrir con cierta urgencia. La mejor opción para un músico que quisiese aprender probabilidad (y estadística) sería la de encontrar un buen profesor, con un método de aprendizaje activo, con sensibilidad hacia el perfil de estos alumnos, y con pasión por la materia. A falta de tan favorables circunstancias, una posibilidad alternativa es la de los cursos en línea como Statistics One [Con16] o Statistics: Making Sense Out of Data [GJ16]; estos cursos requieren esfuerzo continuado en el tiempo así como una voluntad de aprendizaje sólida.

2. Ritmo y métrica

La escucha de una melodía no consiste en la mera detección de los patrones de duración. El cerebro interpreta el ritmo de la melodía extrayendo una gran cantidad de información previa y combinándola con la información recibida durante la propia escucha de la pieza. Así, impone a la interpretación del patrón rítmico de la melodía una estructura perceptual y cognitiva rica y compleja. Esta estructura incluye la familiaridad con el estilo, la enculturación del oyente, su estado de ánimo, su formación musical, entre otros factores.

Como ejemplo de dicha complejidad, consideremos la figura 1, donde podemos ver en la parte de arriba un patrón rítmico, dado por sus ataques medidos en milisegundos. Debajo del patrón vemos hasta cinco interpretaciones diferentes en términos de métrica. La interpretación A asocia el patrón a un compás de 2/4, dando una negra con puntillo, una corchea y dos negras. Aquí los tiempos fuertes son el primero y el tercero. En la interpretación B tenemos un compás de 3/4. El patrón queda ahora incompleto, pues el último compás solo tiene una negra. Los tiempos fuertes ahora son el primero y el cuarto. Para la interpretación C tenemos un compás de 6/8, de subdivisión ternaria, donde de nuevo los tiempos fuertes son el primero y el cuarto. En la interpretación D la segunda nota es una nota de adorno de nuevo dentro de un compás de 2/4. Por último, en la interpretación E nos topamos con una visión del patrón que empieza con un silencio. Ahora solo hay un tiempo fuerte en la segunda nota (esta última interpretación está más bien forzada). De entre todas las interpretaciones ofrecidas aquí, parece que la más probable es la primera, aunque sin duda habrá lectores que discrepen de esta afirmación. Este ejemplo ilustra el problema de encontrar el contexto métrico más adecuado para enmarcar un patrón rítmico. Aquí el sentido la expresión “más adecuado” significa más musical, lo cual, una vez más, es relativo al estilo musical concreto (supondremos aquí que hablamos de la música tonal occidental).

PIC

Figura 1: Un patrón rítmico con diversas interpretaciones (figura tomada de [Tem10])

La métrica se define como un patrón de acentos que se producen de manera regular y sobre los cuales se construyen los patrones rítmicos. Los tiempos acentuados se llaman fuertes y los no acentuados, débiles. En esta definición se supone que hay pulso asíncrono encima del cual se define la métrica. La figura 2 muestra la estructura métrica de algunos de los compases más frecuentes en la música tonal occidental. El patrón de acentos se reproduce a distintos niveles, donde el más bajo suele ser el del pulso. Los tiempos que tienen más puntos encima son los tiempos que tienen más prominencia métrica. En la figura se ve que esos tiempos coinciden con el primer tiempo de cada compás.

PIC

Figura 2: Métricas para compases frecuentes (figura tomada de [Tem10])

En su libro, Temperley argumenta la importancia de la estructura métrica. Para ello, cita varios artículos de autores ilustres, como el artículo clásico de Gabrielsson [Gab73], donde que melodías con estructuras métricas similares se tienden a juzgar como más similares; o los trabajos más recientes de Sloboda [Slo85] y Povel y Essens [PE85] donde prueban que la ambigüedad métrica influye en la complejidad rítmica. Temperley alude a trabajos que han tratado otros aspectos de la métrica, como el papel de esta en la percepción de otras variables musicales (como la armonía y la estructura de la frase), su función en la interpretación o cómo configura la expectativa musical (véanse las referencias de la página 26 de citetemper-10).

Hay, sin embargo, un autor que humildemente consideramos que Temperley ha pasado por alto y es Stephen Handel. En su artículo The interplay between metric and figural rhythmic organization [Han98] de 1998 prueba que la agrupación (en inglés, figural organization) es mucho más preponderante que la estructura rítmica. Lo hace a partir de una serie de experimentos muy exhaustivos y bien diseñados donde confronta patrones de agrupación contra patrones métricos. No obstante, el trabajo de Temperley consiste en diseñar modelos computaciones para la métrica y no para la agrupación. Pero dado el trabajo de Handel, parece una buena idea construir modelos computacionales para la agrupación.

3. Modelos de percepción rítmica

La modelización de la percepción rítmica ha sido un problema de investigación que ha atraído a muchos investigadores de diversas áreas desde hace varias décadas. El propio Temperley, en una obra anterior, The cognition of basic musical structures [Tem01], hace una revisión bastante exhaustiva de esos modelos.

Hay varios criterios para clasificar los modelos de percepción rítmica. Uno muy general es el tipo de entrada, que puede ser simbólica, cuando la entrada es una partitura o un fichero tipo midi, o de audio, cuando la entrada es un fichero de audio. Atendiendo a la estrategia de modelización, tenemos los siguientes modelos:

  1. Métodos basados en reglas: El patrón rítmico se analiza en orden cronológico y se construye los niveles métricos basados en reglas explícitas de carácter deductivo; véase [Lee91].
  2. Métodos conexionistas: El patron rítmico es representado en una red neuronal de la cual se infiere la estructura métrica; véase [DH99].
  3. Métodos basados en reglas de preferencia: En base al análisis de muchos patrones rítmicos se construyen reglas que determinan la estructura métrica preferida por el oyente en un patrón rítmico dado; véase [Tem01].
  4. Métodos probabilísticos: Son métodos basados principalmente en la inferencia bayesiana; para más información, véase [CKH00]

Como el libro de Temperley se centra en esta última categoría, vamos a profundizar un poco más en ellos. Típicamente, en un método probabilístico, se consideran una interpretación de un patrón rítmico Int y una representación de ese patrón o partitura Par (normalmente dada duraciones en milisegundos). El objetivo es determinar la partitura Par que maximiza la probabilidad

P(Par|Int)

Esta probabilidad representa la fidelidad de la partitura respecto a la interpretación. En la figura 3 tenemos un ritmo (en la primera línea) y dos posibles interpretaciones, dadas por los histogramas debajo del ritmo. Es claro que la primera interpretación es mucho más probable que la segunda.

PIC

Figura 3: Un patrón rítmico y dos posibles interpretaciones (figura tomada de [Tem10])

Se puede probar usando argumentos de probabilidad bayesiana que maximizar P(Par|Int) es equivalente a maximizar P(Int|Par) ⋅ P(Par).

4. El modelo probabilístico de Temperley

4.1. El proceso generativo

Temperley, tras examinar un par de modelos probabilísticos y mostrar sus limitaciones, propone el suyo, que también está basado en el teorema de Bayes. El objetivo de su modelo es inferir la estructura métrica a partir de un patrón rítmico. Si PR designa un patrón rítmico y M una estructura métrica, la ecuación que relaciona a ambas es

P (M|PR) = P(PR|M)⋅P(M)

La estructura métrica M que maximiza la expresión anterior será la más probable para el patrón rítmico dado. El autor usa un modelo generativo de ritmo para calcular las probabilidades de la ecuación anterior. El modelo generativo no es un modelo del proceso creativo sino que intenta capturar el proceso de escucha y decodificación de la información rítmica por parte del oyente. Véase [Góm14] para más información sobre modelos generativos en música.

El modelo generativo está basado en una estructura métrica de tres niveles. El primer nivel es una malla de pulsos regulares. El segundo nivel es el tactus, también llamado pulso percibido y el tercero es un nivel más abstracto, que cabalga sobre los otros dos, y que representa el compás. Las notas tienen que ocurrir sobre la malla de puntos regulares del primer nivel.

El modelo se concibe como un grafo cuyos nodos contienen información y flechas que muestran las relaciones entre los nodos. La información de los nodos se puede concebir como variables aleatorias con ciertas distribuciones de probabilidad. Las variables implicadas en el modelo son las siguientes (dejamos los nombres originales de las variables del libro):

  1. UT: Define si el compás es de subdivisión binaria o ternaria.
  2. UPh: Controla la fase del nivel 3 con relación al nivel 2, esto es, qué posición ocupa la primera nota del nivel 3 en el nivel 2.
  3. L: Detecta si el nivel 2 es de subdivisión binaria o ternaria con respecto al nivel 1.

A partir de estas variables el nivel del tactus se puede generar ya. La generación del nivel de tactus es independiente de la determinación del compás. Se empieza con una primera nota del tactus en el tiempo cero y la variable T1 marca la duración de esta primera nota. En general, Tn será la n-ésima duración del tactus y es una variable distribución de probabilidad que se apoya en la duración de la variable Tn-1. Acompañando a {Tn} están las variables An, que dictan si en cada paso hay que generar otra nota de tactus o el proceso se finaliza.

La combinación de los pasos anteriores de la generación del tactus da automáticamente las notas del tactus, la fase y el periodo en el siguiente nivel. Pero aun falta la generación de las notas de nivel 2. Toda nota de nivel 2 lo es de nivel 1, pero hay otras notas entre medias que están en el primero y no en el segundo nivel. En función de si el compás es de subdivisión binaria o ternaria así se rellenarán. La variable DBn representan la posición de estas notas intermedias cuando la subdivisión es binaria y TB1n y TB2n cuando la subdivisión es ternaria. Poniendo en combinación todo lo anterior se generan las notas del patrón rítmico; la variable Np indica si hay una nota en la posición p. La figura 4 muestra un esquema de todo el proceso.

PIC

Figura 4: El proceso generativo del modelo probabilístico de Temperley (figura tomada de [Tem10])

El modelo funciona a partir de unos parámetros probabilísticos. ¿Cómo se eligen los valores de esos parámetros? La manera en que Temperley lo soluciona es recurriendo a un corpus musical suficientemente extenso, el cual analiza y extrae las probabilidades para inicializar su modelo. Lo ideal sería que esos parámetros reflejasen las decisiones de los oyentes en la decodificación de los patrones rítmicos. A falta de tales parámetros, Temperley escogió el corpus Essen Folksong Collection [Sch95]. Con este corpus, por ejemplo, se puede asignar una probabilidad al suceso de que una canción tenga un compás de subdivisión binaria o ternaria. No habría más que calcular su frecuencia relativa en el corpus.

Otros parámetros no tienen tan obvia y directa traslación en el corpus. Por ejemplo, la distribución de Tn tiene la siguiente definición:

             (              |{ si Tn < 9 o Tn > 22; P(Tn|Tn-1) =              |(  -(0.5⋅(Tn-Tn-1)2)                e

donde Tn se mide en unidades enteras de 50 milisegundos. Esta definición refleja el hecho conocido en psicología de la música que el tactus suele rondar los 700 milisegundos y que suele ser regular a lo largo de la pieza.

No vamos a entrar en una explicación detallada de todos los parámetros del modelo y su inicialización porque sería excesivamente prolijo. Las tablas siguientes muestran los valores ya inicializados:

PIC

Figura 5: Los parámetros del modelo de Temperley (I) (figura tomada de [Tem10])

PIC

Figura 6: Los parámetros del modelo de Temperley (II) (figura tomada de [Tem10])

4.2. El proceso de búsqueda de la métrica

Como dijimos más arriba, el objetivo es maximizar P(M|PR), que es a su vez equivalente a maximizar P(PR|M) ⋅P(M). Aplicando el modelo construido tenemos que la forma final de la ecuación a maximizar es

P(M|PR) = P(PR|M) ⋅ P(M)

= P(UT) ⋅ P(LT) ⋅ P(UPh) ⋅ P(T1) ⋅∏n=2tP(An)⋅


n=2t-1P(Tn|Tn-1) ⋅∏n=1tP(DBn) ⋅∏p=1qP(Np)

donde t es el número de tactus en la pieza y q es su número de notas. Para alcanzar el máximo es necesario considerar todas las posibles estructuras métricas. Ello no es ni computacionalmente tratable ni psicológicamente razonable. Muchas de las estructuras métricas no tendrían sentido musical ni cognitivo y añadirían coste computacional de modo innecesario. Gracias a ciertas suposiciones que se pueden realizar sobre las distribuciones de probabilidad del modelo, se puede bajar la complejidad a cotas razonables. Cómo se hace esto se escapa del propósito de este artículo de divulgación. El lector interesado puede consultar las páginas 36 a 40 del libro de Temperley.

4.3. Prueba del modelo

Tras la construcción del modelo, Temperley hace pruebas para determinar la bondad del mismo. Introduce las piezas en el sistema y examina el porcentaje de análisis correctos, es decir, de estructuras métricas correctas asociadas a cada pieza del corpus de Essens. Como comparación adicional usa otro sistema, Melisma, que persigue los mismos objetivos que su modelo. El porcentaje de análisis correctos para el sistema de Temperley es del 79.3% y del del 86.5% para Melisma. En la figura 7 vemos dos análisis; el primero corresponde al correcto y el segundo al proporcionado por el sistema. Vemos que el sistema ha asignado incorrectamente el compás confundiendo un 6/8 con un 3/4.

PIC

Figura 7: Determinación de la estructura métrica con el sistema de Temperley (figura tomada de [Tem10])

5. Conclusiones

Al final del capítulo 3, Temperley analiza las limitaciones de su sistema y las posibilidades de mejora. Su sistema no tiene en cuenta otros parámetros que contribuyen a la percepción rítmica, tales como la armonía, el acento o la estructura melódica. El modelo de Temperley es generalizable a música polifónica, aunque es claro que la complejidad conceptual y computacional aumentará. También argumenta Temperley que su modelo es extrapolable a otras tradiciones musicales porque en la construcción del mismo no se ha basado fuertemente en los principios musicales de la tradición occidental. Esto necesita más argumentación porque la estructura métrica que se estudia aquí es la de la tradición occidental y nosotros en particular cómo se podría aplicar a tradiciones donde el ritmo es aditivo o carecen de métrica, por poner dos ejemplos extremos.

 

Bibliografía

[CKH00] A. T. B. Cemgil, P. Desain Kappen, and H. Honing. On tempo tracking: Tempogram representation and Kalman filtering. Journal of New Music Research, 29:259–273, 2000.

[Con16] Andrew Conway. Statistics 101. https://es.coursera.org/course/stats1, consultado en noviembre de 2016. Universidad de Princeton.

[DH99] P. Desain and H. Honing. Computational models of beat induction: The rule-based approach. Journal of New Music Research, 28:29–42, 1999.

[Gab73] A. Gabrielsson. Studies in rhythm. Acta Universitatis Upsaliensis, 7:3–19, 1973.

[GJ16] Alison Gibbs and Rosenthal Jeffrey. Statistics: Making Sense Out of Data. https://es.coursera.org/course/introstats, consultado en noviembre de 2016. Universidad de Toronto.

[Góm14] P. Gómez. Teoría generativa de la música - I. http://divulgamat2.ehu.es/divulgamat15/index.php?option=com_content&view=article&id=16037&directory=67, junio de 2014.

[Góm16] P. Gómez. Música y Probabilidad (I). http://divulgamat2.ehu.es/divulgamat15/index.php?option=com_content&view=article&id=16871&directory=67, noviembre de 2016.

[Han98] Stephen Handel. The interplay between metric and figural rhythmic organization. Journal of Experimental Psychology: Human Perception and Performance, 24(5):1546–1561, 1998. Documento accesible en http://dx.doi.org/10.1037/0096-1523.24.5.1546.

[Lee91] C. Lee. The perception of metrical structure: Experimental evidence and a model. Academic Press., Londres, 1991. Capítulo del libro Representing Musical Structure, P. Howell, R. West, and I. Cross (eds.).

[PE85] D.-J. Povel and P. Essens. Perception of temporal patterns. Music Perception, 2:411–440, 1985.

[Sch95] H. Schaffrath. The Essen Folksong Collection. Center for Computer-Assisted Research in the Humanities, Stanford, Calif., 1995. Editado por D. Huron.

[Slo85] J. A. Sloboda. The Musical Mind. Oxford: Clarendon Press, 1985.

[Tem01] D. Temperley. The Cognition of Basic Musical Structures. MIT Press, Cambridge, Mass., 2001.

[Tem10] D. Temperley. Music and Probability. MIT Press Ltd, 2010.

 
Volver