La búsqueda y recopilación de información de internet es una actividad que suele consumir bastante tiempo a quién la realiza, además de volverse repetitiva y en cierto punto tediosa.
Conociendo las herramientas correctas puedes hacer el trabajo más simple y productivo.
Google Sheets, el servicio de Google para trabajar con hojas de cálculo, cuenta con funciones que permiten obtener y trabajar con el contenido de un sitio de internet, específicamente a través del código HTML con el que están elaborados.
Automatizando la recopilación de información
Para obtener porciones específicas de contenido Sheets utiliza un formato de datos estructurado llamado XML y un lenguaje que permite recorrer y procesar un documento mediante expresiones específicas llamado XPath.
Por ejemplo, si quisieras extraer los enlaces que se encuentran en un sitio web podrías usar:
=IMPORTXML(url, “//a/@href”
O podrías intentar obtener sólo los títulos del sitio con:
=IMPORTXML(url, “//title”
Por supuesto existen multitud de tutoriales que te ayudarán a extraer información específica.
La plantilla de Google Sheets que tienes disponible en este enlace te permitirá extraer de manera automática los datos de un sitio web colocando únicamente la url.
Las expresiones ya se encuentran pre cargadas por lo que no tienes que hacer nada más aunque si puedes examinarlas con el fin de saber como funcionan. Claro, es solo una muestra de lo que puedes hacer con ellas por lo que con la copia instalada en tu Drive puedes intentar modificarla o mejorarla.
La entrada Obtén de manera automática los datos de contacto de un sitio web utilizando Google Sheets se publicó primero en Cristian Monroy.