Revista Blog

Korp y Python. ¡Accede a corpus desde tu código Python!

Por Mika Hämäläinen

Si alguna vez has trabajado con lingüística computacional en un país nórdico, probablemente has escuchado sobre Korp. Y seguramente ya has aprendido a odiar y amar el plataforma al mismo tiempo. Mi primero pensamiento fue: Korp está bien, pero no tiene mucho uso 🤷🏼‍♂️, Yo necesito un acceso automático a los datos que Korp esconde detrás su horrible interfaz. El que la descripción de API no sea fácil de encontrar y que la mayoría de los proveedores de Korp no sean muy abiertos sobre la url de su API, no facilita la situación. 😩

Por suerte, otra vez más, yo llego cómo un héroe montado en su caballo a salvar el día. 🤓 Yo tengo mi propia librería de Python para usar Korp. 😊

Cómo instalar mi librería Korp API para Python

La instalación no podría ser más fácil, ya que yo he subido la librería a PyPi.

Lo único que hay que hacer, es ejecutar: sudo pip install korp

Un ejemplo

En le siguiente ejemplo, vamos a usar el Korp de CSC Kielipankki asignando "kielipankki" al variable service_name. Otros valores posibles son "GT" para Giellatekno y "språkbanken" para el Språkbanken de Suecia.

Primero, recuperamos la lista de todos los corpus en Kielpankki y usamos los que empiezan con FTB2 para limitar nuestra búsqueda en el TreeBank finlandés v2. Luego, en la consulta, especificamos que queremos las concordancias para el lema koira. Como resultado, obtenemos el número total de los resultados y todas las concordancias.

Más información

Mi libreriá Korp no está limitada a concordancias. Date un vistazo a la página Wiki para ver todo lo que pueda hacer. 😁 Si tienes dudas o preguntas, siempre puedes ponerte en contacto conmigo. ☺️

Más información sobre el API de Korp está disponible en la página web de Kielipankki. Para consultas más avanzadas, vale la pena leerlo.


Volver a la Portada de Logo Paperblog