Hoy compartimos un caso de éxito de la prueba de concepto más reciente que hemos realizado en Hiberus Data & Analytics para Havas Media Group, en la que se ha desarrollado una plataforma privada de intercambio de documentos, con el uso de Azure Cognitive Search.
Azure Cognitive Search es un servicio de búsqueda en la nube con una capa de inteligencia artificial integrada que enriquece todos los tipos de información, identificando y explorando el contenido relevante a gran escala.
A través de esta capa inteligente, los indexadores son capaces de extraer, procesar, analizar y ordenar información encontrada en distintos archivos de oficina: PDF, Documentos Word, Presentaciones Power Point y Tablas Excel. Así como imágenes dentro de archivos, JSON, entre otros.
Después de enriquecer los documentos, extrayendo y procesando datos no estructurados, se puede desarrollar un motor de búsqueda capaz de acceder a la información extraída de forma semiestructurada, en segundos o microsegundos.
IA para enriquecer toda la información
Es posible implementar modelos de visión artificial para, por ejemplo, generar una descripción a partir de una imagen, generar etiquetas, extraer texto en fotos o identificar celebridades y lugares de referencia.
De la misma manera, con procesamiento del lenguaje natural se puede realizar extracción de frases clave, reconocimiento de entidades (Desde personas, fechas y organizaciones hasta direcciones URL y números de teléfono), detección de datos sensibles e identificadores personales, entre otros.
Así como también se pueden crear e implementar nuevos modelos de IA personalizados para el caso concreto de un negocio. Por ejemplo, es posible entrenar un modelo de reconocimiento de entidades para detectar marcas u organizaciones especificas relevantes para vuestro sector.
Con este modelo personalizado en el indexador se podría automáticamente:
- Categorizar tickets en Atención al cliente.
- Obtener información específica a partir de comentarios de clientes.
- Combinar con visión artificial para reconocer entidades en datos no estructurados como imágenes, gráficas, logos u otros.
- Y especialmente, potenciar el sistema de búsqueda para que sea más relevante y preciso para el caso concreto de un negocio, incluso cuando un término haya sido referenciado de manera indirecta.
Azure Cognitive Search ha demostrado ser una herramienta potente, versátil y conveniente para empresas con la intención de sacar provecho a todos los tipos de datos que puedan tener en su negocio y ecosistema.
Búsquedas potenciadas por IA
Gracias a esta capa cognitiva, las búsquedas en la plataforma de HAVAS Media Group acceden a información proveniente de información no estructurada, de forma sencilla para el usuario.
Si buscamos por la frase “Fly to someone not just somewhere” en la plataforma, obtendremos un resultado que no muestra ese texto en el título, metadatos o categorías de este.
Sin embargo, al entrar en el archivo, se encuentra una imagen con exactamente ese texto, como se puede ver a continuación.
El texto encontrado con OCR es también detectado con bounding boxes (Cuadros delimitadores) con coordenadas dentro del documento representando la ubicación cada línea o párrafos de texto detectados.
Sobre el texto detectado se puede realizar reconocimiento de entidades, traducción, detección y anonimización de identificadores personales.
La información extraída puede provenir de imágenes en documentos como lo puede ser un PDF con páginas escaneadas, entre otros, y cuyo contexto puede estar originalmente oculto.
Motor de búsqueda con algoritmo de similitud
El procesamiento de una consulta de búsqueda de texto empieza analizando el texto de consulta para extraer los términos de búsqueda. Un conjunto de resultados se ordena mediante una puntuación de importancia asignada a cada documento de coincidencia.
La plataforma creada para HAVAS Group Media permite buscar por metadatos, categorías o incluso información que se encuentra en imágenes de documentos.
Si buscamos, por ejemplo, por múltiples términos “Havas” y “Media”, el motor de búsqueda priorizara aquellos resultados con mayor relevancia de estos términos en el documento. Esto se logra con las fases:
- Consulta de análisis. Reestructura las subconsultas en un árbol de consulta (una estructura interna que representa la consulta) que pasa al motor de búsqueda.
- Análisis léxico. Se realiza un análisis lingüístico, que transforma los términos de consulta basándose en reglas específicas para un idioma determinado.
- Recuperación de documentos. Búsqueda de documentos con términos coincidentes en el índice.
- Cálculo de puntuaciones de relevancia. La puntuación será mayor en aquellos documentos que responden mejor a la pregunta del usuario según lo expresado por la consulta de búsqueda.
Los analizadores de consulta separan los términos de consulta de los operadores de consulta y crean una estructura de consulta (un árbol de consulta) que se envía al motor de búsqueda.
Con analizadores de texto se realiza un análisis léxico sobre los términos de consulta. Este proceso puede implicar la transformación, eliminación o expansión de los términos de consulta. Se elimina palabras vacías (palabras irrelevantes, como «el» o «y»), se tokeniza las palabras y se puede interpretar el contexto del término.
En nuestro ejemplo de búsqueda por múltiples términos “Havas” y “Media”, se tomará también en cuenta pesos asignados a campos en el índice. Por ejemplo, el título tendrá más peso al tener términos coincidentes que cuando se encuentren en el contenido del documento, la descripción u otros campos del índice.
Algoritmo de similitud para resultados de búsqueda
El sistema de búsqueda implementado para HAVAS Media Group retorna múltiples columnas relevantes para su caso ad-hoc. Una de esas columnas es el “score”.
Éste “score” es un indicador de la relevancia de un elemento en el contexto de una consulta. Este sistema de puntuación usa el algoritmo BM25, el cual es de tipo TF-IDF. Usa la frecuencia del término (TF) y la frecuencia inversa del documento (IDF) como variables para calcular las puntuaciones de relevancia de cada par de documento-consulta, para luego clasificar los resultados. BM25 es una mejora frente a otros algoritmos de similitud.
Entre las pruebas realizadas para HAVAS Media Group, se probó la personalización de la salida del índice, demostrando la capacidad de personalización de la herramienta al mostrar resultados de búsqueda.
Es capaz de establecer y entender la relación entre palabras bajo el mismo contexto e intención durante una búsqueda: «Playas de verano» referencia a todas las extensiones y subrepresentaciones que pueda tener. El buscador encontrará todos los registros en los que exista referencia de una playa en múltiples idiomas, ciudades de la costa, temporada de verano, entre otros.
Conclusión
Azure Cognitive Search ha demostrado ser una herramienta versátil y conveniente para empresas enterprise con la intención de sacar provecho a todos los tipos de datos que puedan tener en su negocio y ecosistema. En cuanto a disponibilidad, Azure nos proporciona SLA (Acuerdo de nivel de servicio) con un nivel de disponibilidad del 99,9% (si se cumplen algunos requisitos determinados).
La versatilidad de esta herramienta se manifiesta de múltiples maneras. Un día puede necesitar una búsqueda de texto simple, pero mañana puede buscar en documentos. O incluso, usar distintas bases de datos diferentes en un solo lugar.
Si tu organización necesita un servicio de búsqueda robusto, que pueda manejar grandes cantidades de datos, tenga grandes posibilidades de configuración e integre IA para sacar enriquecer la información en imágenes, procesamiento de texto o metadatos, Azure Cognitive Search es una buena opción para ello.
Si quieres más información, Hiberus cuenta con una unidad especializada en servicios de Data & Analytics formada por un equipo de profesionales con amplio expertise en tecnología, análisis de datos e innovación. Desde esta unidad ofrecemos soluciones integrales de consultoría estadística y análisis de datos con especialización por áreas de conocimiento, donde se acompaña a nuestros clientes en cada proyecto integrándonos como parte de su equipo.
¿Quieres más información sobre nuestros servicios de IA Generativa?
Contacta con nuestro equipo de expertos en IA Generativa