SequenceMatcher

Comparar dos documentos es una tarea relativamente compleja, especialmente si buscamos coincidencias parciales entre los mismos. Para esta tarea en el módulo difflib de Python podemos encontrar la clase SequenceMatcher con la que realizar esta tarea. Una clase con la que localizar las coincidencias existentes en las subsecuencia, al mismo tiempo que se puede obtener un grado de similitud entre los documentos. Veamos cómo funciona esta clase.

LCS (Longest Contiguous matching Subsequence)

El problema básico que resuelve la clase SequenceMatcher es localizar la subsecuencia de coincidencia contigua más larga (LCS, Longest Contiguous matching Subsequence) entre dos secuencias. Esto sin tener en cuenta la presencia de elementos "basura", es decir, aquellas subsecuencias que no aportan valor a la secuencia.

Por ejemplo, si tenemos la cadena "Hola mundo" y "Hola Analytics Lane" la subsecuencia de coincidencia contigua más larga es "Hola ". Esto es, la subcadena de texto más larga que se encuentra en ambas.

Uso de SequenceMatcher

El constructor SequenceMatcher tiene la siguiente forma

SequenceMatcher(isjunk=None, a='', b='', autojunk=True)

En donde isjunk es una función que devuelve verdadero para aquellos elementos que se considera "basura", a es la primera secuencia, b es la segunda secuencia y autojunk es una opción con la que eliminar la heurística que permite detectar automáticamente secuencias "basura". Una vez creada la clase se puede acceder al método find_longest_match para localizar la subsecuencia de coincidencia contigua más larga. Método que requiere cuatro entradas: la posición inicial de búsqueda en la secuencia a, la posición final de búsqueda en la secuencia a, la posición inicial de búsqueda en la secuencia b y la posición final de búsqueda en la secuencia b. Así para buscar en dos cadenas se puede usar:

from difflib import SequenceMatcher

str1 = ' Hola'
str2 = 'Hola Hola'

matcher = SequenceMatcher(None, str1, str2)
match = matcher.find_longest_match(0, len(str1), 0, len(str2))
match

Match(a=0, b=4, size=5)

Lo que nos devuelve en match un objeto Match en el que nos da la posición inicial de la subsecuencia en a, b y la longitud de esta. Así es posible ver la cadena usando la siguiente línea de código:

str1[match.a:match.a + match.size]

' Hola'

Indicar las secuencias "basura"

Habitualmente es posible que deseemos que algunos elementos como los espacios y la puntuación ya que no aportan información. Es decir, los podemos considerar "basura" dentro de la secuencia. Lo que se puede configurar a través del primer parámetro de la clase. Así para eliminar los espacios en blanco se puede usar:

matcher = SequenceMatcher(lambda x: x in " ", str1, str2)
match = matcher.find_longest_match(0, len(str1), 0, len(str2))
str1[match.a:match.a + match.size]

'Hola'

Obtener todas las secuencias

Además del método find_longest_match También existe el método get_matching_blocks que devolverá todos los bloques de texto coincidentes existentes en las dos secuencias. Lo que devolverá un listado de objetos Mathc como el que devuelve el método find_longest_match. Los objetos no están ordenados, pero si queremos ordenarlos en base al tamaño se puede usar la función sort:

sorted(matcher.get_matching_blocks(), key=lambda obj: obj.size, reverse=True)

Ratio de similitud

Finalmente se puede obtener una ratio de similitud entre las dos secuencias que se puede obtener mediante el método ratio. Un valor que se calcula como 2*M/T donde M son la coincidencias y T el número de elementos en ambas secuencias. Así se puede comprobar el resultado usando

T = len(str1) + len(str2)
M = 0

for matchin matcher.get_matching_blocks():
    M += match.size

ratio = 2 * M / T
ratio

0.7142857142857143

El mismo resultado que el método ratio

matcher.ratio()

0.7142857142857143

Esta ratio, que tiene valores entre 0 y 1, es una medida de similares o no que las dos secuencias comparadas. No es una distancia pero se podría crear una a partir del resutlado.

Conclusiones

En esta entrada se ha visto el comportamiento de la clase SequenceMatcher con la que se puede comparar las coincidencias entre dos secuencias. Una herramienta con la que se puede analizar las similitudes que existen entre dos documentos.

Imagen de Pezibear en Pixabay

Revista Informática

LCS (Longest Contiguous matching Subsequence)

Uso de SequenceMatcher

Indicar las secuencias "basura"

Obtener todas las secuencias

Ratio de similitud

Conclusiones

Sobre el autor

Sus últimos artículos

Revistas

LA COMUNIDAD INFORMÁTICA

JUEGOS EN ES.PAPERBLOG.COM