La indexación semántica latente (LSI) es una técnica común en el área de procesamiento del lenguaje natural. Este artículo trata sobre cómo funciona LSI comparando la búsqueda pura basada en palabras clave.
¿Qué es LSI?
La indexación semántica latente (LSI) es un método de indexación y recuperación que utiliza una técnica matemática llamada Descomposición de valores singulares (SVD) identificar patrones en las relaciones entre los términos y conceptos contenidos en una colección de texto no estructurado. LSI se basa en el principio de que las palabras que se utilizan en los mismos contextos tienden a tener significados similares. – wiki
Por ejemplo, Paris y Hilton están asociados con una mujer en lugar de una ciudad y un hotel, Tiger y Woods están asociados con el golf.
Búsqueda de palabras clave normal frente a LSI
Al utilizar la búsqueda normal de palabras clave, un documento contiene la palabra dada o no, y no hay término medio.
LSI agrega un paso importante al proceso de indexación de documentos. LSI examina una colección de documentos para ver qué documentos contienen algunas de esas mismas palabras. LSI considera que los documentos que tienen muchas palabras en común son semánticamente cercanos y los que tienen menos palabras en común son menos cercanos.
Cuando busca en una base de datos indexada por LSI, el motor de búsqueda observa los valores de similitud que ha calculado para cada palabra de contenido y devuelve los documentos que cree que se ajustan mejor a la consulta. Debido a que dos documentos pueden ser semánticamente muy cercanos incluso si no comparten una palabra clave en particular, LSI no requiere una coincidencia exacta para devolver resultados útiles. Cuando una búsqueda de palabra clave simple fallará si no hay una coincidencia exacta, LSI a menudo devolverá documentos relevantes que no contienen la palabra clave en absoluto.
Un ejemplo de LSI
Si usamos LSI para indexar una colección de artículos y las palabras “programa” y “código” aparecen juntas con suficiente frecuencia, el algoritmo de búsqueda notará que los dos términos son semánticamente cercanos. Por lo tanto, una búsqueda de «programa» devolverá un conjunto de artículos que contienen esa frase, pero también artículos que contienen solo la palabra «código». LSI no comprende la palabra distancia, pero al examinar una cantidad suficiente de documentos, sabe que los dos términos están relacionados. A continuación, utiliza esa información para proporcionar un conjunto ampliado de resultados con un mejor recuerdo que una simple búsqueda de palabras clave.
El siguiente diagrama describe el efecto entre LSI y la búsqueda por palabra clave. W significa documento.
Referencia:
1. seobook
2. conceptos erróneos