Ley de Zipf

Publicado el 23 abril 2022 por Elisma_c

A proximadamente el 50% del contenido de cualquier libro, artículo o conversación no será otra cosa que las mismas 50-100 palabras repetidas , mientras que aproximadamente la otra mitad serán palabras que aparezcan solamente una o dos veces

El lingüista de Harvard, George Zipf, en 1940 observó que la mayoría de las palabras, en un idioma, texto o conversación se repetían. Además se dió cuenta de que parecía existir un patrón en la frecuencia de uso de cada una de las palabras.

Zipf hizo el siguiente trabajo: Tomó un libro y contó el numero de veces que aparecía en él cada una de las palabras... Comprobó que la segunda palabra que más se repite aparece, aproximadamente, la mitad de veces que la primera, la tercera un tercio de veces que la primera, la cuarta, un cuarto de veces...

Zifp dedujo un patrón que se puede expresar del siguiente modo: La frecuencia de aparición de una palabra es proporcional al inverso de la posición que ocupa en el listado del número de apariciones de cada palabra.

Lo interesante es que esta tendencia aparece en todos los idiomas. Incluso en los "artificiales" como el esperanto.

En español, una de cada 16 palabras que aparecen en un texto es la palabra de. Las diez palabras más comunes, según la RAE son, de mayor a menor frecuencia de aparición: de, la, que, el, en, y, a, los, se y del. En este caso, 1 de cada 4 palabras (25 %) que utilizamos se corresponderá con una de estas palabras. Es probable que este sea el motivo por el que se afirma que habitualmente utilizamos solo 800 palabras.

Activa los subtítulos en español, si lo deseas.

Pero no solo sucede esto en las palabras de un texto. También sucede en los apellidos de las personas. En España, el apellido más común es García, seguido de González, con la mitad de apariciones.

Gráficas del ranking versus la frecuencia para las primeras 10 millones de palabras en 30 Wikipedias (descargas de octubre del 2015) en una escala logarítmica en los dos ejes.

Este patrón también se repite en otros fenómenos como el numero de habitantes de las ciudades, tráfico en internet, magnitud de los terremotos.

La ley de Zipf forma parte de las leyes de la Bibliometría. La Bibliometría es una parte de la Cienciometría que aplica métodos matemáticos y estadísticos a toda la literatura de carácter científico y a los autores que la producen, con el objetivo de estudiar y analizar la actividad científica