Diarización de interlocutores: cómo saber quién dice qué en cada conversación

diarización de interlocutores

El análisis conversacional es algo muy complejo. Para empezar por la dificultad que existe al tratar de entender los propios datos conversacionales. En la mayoría de los casos estos vienen sin estructurar en formatos de audio no tratados de forma conveniente. 

Muchos audios en diferentes formatos que hay que trabajar y tratar para ser entendidos. Para ello existen los motores de transcripción (ASR), como el que desarrollamos en Upbe -pensando en el contexto del call center específicamente-. 

Que esté desarrollado y entrenado en el contexto de conversaciones de atención al cliente es muy relevante. Porque al desarrollar la tecnología, y sus casos de uso con ese tipo de conversaciones, la posibilidad de tener transcripciones de mayor calidad es más alta

Y es cuando basamos muchas decisiones de negocio en transcripciones de audio, ésta tiene que tener un margen de error bajo. Que haya muy pocos errores es fundamental para luego tener calidad en el análsis. 

Otro elemento que hace este análisis más complejo es la diarización de interlocutores. La diarización consiste en entender quién dice qué en cada conversación y esto es un elemento fundamental. Sobre todo cuando con una plataforma cubres el análisis del 100% de las llamadas. Te puede dar una capacidad de granularidad en el análisis de las conversaciones entre clientes y agentes de muchísimo valor.

¿Por qué es tan importante la diarización de interlocutores?

Combinando la diarización con funcionalidades como la Búsquedas Inteligente, se pueden conseguir muchas cosas clave, como por ejemplo:

  1. Identificar cosas que estén diciendo los clientes de forma recurrente en diferentes combinaciones de palabras calve. Cuestiones que afecten a nuestro producto, incidencias recurrentes no detectadas o no escaladas, motivos de reclamación o insatisfacción, razones que están provocando bajas de clientes, etc. 
  1. Entender si los agentes están siguiente las buenas prácticas recomendadas o están mencionando expresiones o contextos que afecten de forma negativa a la experiencia de cliente.  

Desagregar ese análisis gracias a la diarización de interlocutores es fundamental para accionar mejoras que impacten en la satisfacción de clientes. Y no solo eso. Nos puede ayudar a mejorar nuestros procesos de negocio automatizados como son la verificación de ventas o análisis de la calidad. 

La diarización de interlocutores, por definirlo de forma concreta, entonces es el proceso de dividir las entradas de audio automáticamente en función de la identidad del hablante. Te ayuda a responder, como decíamos antes, a la pregunta ¿quién habló cuándo?

Cómo funciona la diarización de interlocutores  

Con el avance que ha provocado la IA (a traves del Deep Learning) en el análisis de audios en los últimos años, ahora es posible tener la capacidad de verificar e identificar a los hablantes automáticamente (con la seguridad de saber que estamos acertando). 
 
La diarización del hablante tiene el potencial para desbloquear muchísimo valor para cualquier compañía o call center. Esto puede ocurrir si estos están grabando en canal mono en lugar de estéreo, donde los interlocutores ya vienen separados en origen por el grabador.

Porque antes podría haber dificultades para sacar inteligencia de negocio en esos datos conversacionales. Pero ahora tienes la posibilidad de estructurar todos esos datos sabiendo quién dice qué. Pero, ¿cómo funciona? 

La diarización de interlocutores no es fácil, ya que supone el desarrollo de varios pasos. Explicado de la forma más natural, para usuarios de negocio, para que se entienda el paso a paso de la diarización, estos pasos se suceden así: 

  1. Detección de voz: se detecta la actividad de voz para identificar el habla, independientemente de quién sea el interlocutor, y eliminar el ruido. Este proceso no es el más complejo y se suele entender como Detección de la Actividad del Habla o Detección de la Actividad de la Voz. 
  1. Segmentación del habla: se extraen segmentos cortos del audio y se realizan diferentes procesos para identificar las características de audio de esos segmentos pequeños. 
  1. Identificación de Interlocutor: en este paso, se asignan esas características de los audios a interlocutores concretos (imagenos a un agente y al cliente). Se asocian las características identificadas en el paso anterior. 
  1. Agrupación: agrupa esas identificaciones de los interlocutores por segmentos para producir resultados de diarización. Es decir, junta todos los segmentos que, en teoría, pertenecen al mismo hablante. 

Existe mucha complejidad en este punto, porque en realidad la herramienta no sabe cuántos interlocutores hay en la conversación. Así que tiene que determinar el número de hablantes con las marcas de tiempo de cada hablante utilizando 2 algoritmos de agrupación que integramos en nuestro sistema de diarización. 

Una vez finalizado el proceso, todos los segmentos están agrupados entre los interlocutores identificados. El resultado de la transcripción será entonces una transcripción completa con las palabras del archivo de audio, más los interlocutores asociados a cada parte del texto. 

diarización de interlocutores

Áreas de investigación y mejora 

Con toda lógica, existe cierto margen de error en la diarización por interlocutores. En diferentes casos de uso existe margen de mejora. Las técnicas de agrupamiento basadas en redes neuronales, por ejemplo, UIS-RNN, están en disposición de mejorar algunos de estos casos: 

  • Mejor manejo de la diafonía cuando varios interlocutores hablan al mismo tiempo. 
  • Mejora de la capacidad de detectar la cantidad de interlocutores en el archivo de audio o video cuando hay muchos. 
  • Mejor gestión de archivos de audio ruidosos cuando hay altos niveles de ruido de fondo, música u otras perturbaciones del canal. 

Ejemplos prácticos de la diarización de interlocutores 

En el contexto del Call Center existen casos de uso o aplicación de la diarización muy claros. Son casos en los que disponer de este tipo de funcionalidad en tu transcriptor te da un valor evidente para tomar decisiones. Por ejemplo: 

  1. En una venta de un seguro donde el cliente debe responder a una pregunta de contratación si este lo hace con una expresión valida como «sí». Por una parte observamos la pregunta del agente y la respuesta específica del cliente. 
  1. En una presentación inicial, donde ambos interlocutores pueden saludarse con un “Buenos días”, con la diarización podemos discriminar cual es cada uno de ellos. Esto es importante para luego analizar cómo guioniza la llamada el agente y si sigue las buenas prácticas.

1 Comment

Leave a comment