En el campo de los estudios de mercado, el análisis de textos se está posicionando como un método de gran valía con el que obtener datos de especial relevancia. Una tendencia que gana cada vez más adeptos dentro de la comunidad de investigadores.
A lo largo de la historia, la palabra escrita ha permitido acumular y transferir todo tipo de información, compartir conocimiento o inferir las más variopintas ideas. Desde los primigenios pergaminos y los meticulosos códices, hasta la invención de la imprenta, con la que se democratizó el libro y facilitó la difusión y alcance de los textos. Pero es ahora, en la era digital, cuando la palabra vive una segunda edad dorada.
Los nuevos soportes, que surgen al son de la tecnología, permiten la acumulación de cantidades ingentes de datos; la gran mayoría textos codificados en distintos formatos, muchos de ellos no estructurados. Así, Internet, acoge millones de webs indexadas, según World Wide Web Size, en torno a 5.000 millones. Desde redes sociales, blogs, correos electrónicos, chats o documentos con múltiples extensiones, el texto forma parte imprescindible del medio electrónico.
El llamado texts analysis, o minería de textos, permite explorar, localizar y extraer información de utilidad de millones de bancos de datos. Para lograrlo, utiliza elementos de la minería de datos, el aprendizaje automático, o el lenguaje natural.
¿Cómo funciona?
El análisis de textos observa patrones de comportamiento dentro de los documentos: tendencias en el uso de palabras, cuál es su estructura sintáctica, clasificación y valoración de adjetivos, tono o estilo, etc. A partir de ahí, los algoritmos de aprendizaje IA, basados en el procesamiento del lenguaje natural (NLP), pueden establecer relaciones significativas que lleven a localizar los recursos clave. Así, buscan entidades o conceptos, relaciones, frases y sentencias en donde aparezcan conceptos similares.
Las herramientas para la exploración y análisis de textos recorren los distintos canales recopilando recursos. Cuando identifica un elemento determinante, realiza un preprocesamiento, en el que se evalúa y cataloga el tipo de dato localizado. Una vez realizada la exploración, se procede a el filtrado y limpieza de los textos, eliminando los contenidos carentes de utilidad. Por último, se procede a la caracterización de los datos obtenidos, con el fin de elaborar informes legibles para el humano y con los que se puedan establecer estrategias de acción. Aquí, dependiendo de la versatilidad de la aplicación con la que trabajemos, podremos establecer las características que sean de nuestro interés. Por ejemplo, podremos decidir cuáles son las palabras clave que nos interesa detectar, establecer si tienen una carga positiva o negativa, el número de veces que aparecen en un determinado documento o hacer una distinción del tipo unidad semántica que estamos visualizando, a través de un algoritmo sintáctico, que puede establecer si se trata, por ejemplo, de un sustantivo o un verbo.
En definitiva, un método versátil, con una gran variedad de aplicaciones; entre ellas, una de las más destacadas, la importante reducción de tiempo y recursos que se necesita para el análisis de los documentos, rentabilizando la inversión que tienen que realizar las empresas dedicadas a la investigación de mercados.