Mostrar más resultados
28798

¿Qué es y para qué sirve el web scraping?

¿Qué es y para qué sirve el web scraping?

Escrito por Carlos Yañez

El concepto web scraping no es nuevo, pero es posible que no hayas oído hablar del mismo. Se trata de una técnica muy usada sobre todo por empresas digitales con el fin de conseguir grandes cantidades de datos de forma automatizada.

 

¿Qué es el web scraping?

Si intentamos traducir la palabra web scraping del inglés, obtendremos algo así como raspado web que no nos dice gran cosa.

El concepto en realidad lo que significa es el mecanismo mediante el cual se consiguen extraer datos significativos de una página web.

Esta extracción de información del contenido de una web puede realizarse mediante métodos manuales, mediante el desarrollo de algún programa que se encargue de realizarlo o bien usando herramientas que no son más que bots programados que examinan las bases de datos asociadas a las webs y extraen la información.

Existen varios niveles de extracción de datos en función del interés y para ello se disponen de diferentes bots capaces de:

  • Extraer datos a través de las API’s utilizadas
  • Extraer datos y almacenarlos en otra ubicación
  • Manipular los contenidos que se extraen para modificarlos
  • Analizar las estructuras de las webs

 

¿Para qué sirve el web scraping?

Como hemos comentado, a través de esta técnica es posible obtener y analizar datos de las webs que estamos examinando.

A primera vista puede parecer que estas técnicas son algo ilegal, pero en realidad es totalmente legal y lícito el realizar el web scraping, aunque siempre hay que leer las condiciones y términos de uso de estas.

De todas formas, es el propietario de la web el que debe poner los medios para intentar evitar que se le “robe” el contenido de su web. Comento esto para que podamos entender algunas de las utilidades de usar esta técnica.

Las utilidades son múltiples y para ello podemos ver algún ejemplo que nos permitirá entender mejor la potencia de estas técnicas.

Un caso típico es el de realizar el web scraping de una tienda on-line. En este caso usaremos técnicas que nos permitan obtener información sobre los precios de los productos que tiene a la venta esta tienda.

Se tratará de buscar tiendas on-line que vendan los mismos productos que nosotros y analizar los precios que ofrecen. Con esta información, nosotros podremos decidir si mejorar nuestro precio de venta y en consecuencia mejorar nuestras ventas al tener el mejor precio y poder aparecer mejor posicionados en comparadores de precios.

Hacer este proceso de forma manual es costoso, pero usando bots, automatizamos todo el proceso de extracción de datos y análisis de los mismos obteniendo de esta forma una ventaja sobre nuestros competidores.

Las tiendas de venta on-line de aparatos electrónicos, teléfonos inteligentes y venta de ocio suelen ser los más atacados ya que son los productos que tienen mayor demanda de mercado.

Otro de los ataques típicos es la obtención de contenido de webs singulares. Cuando digo singulares me refiero a aquellas que mantiene catálogos de productos, directorios de clientes o contenido digital relevante.

El conseguir obtener esta información puede ser muy valioso y lucrativo para el atacante y un desastre para el propietario. El propietario realiza el esfuerzo de mantener y generar estos contenidos de forma costosa y los bots son capaces de obtenerlo de forma automatizada y sin gran esfuerzo.

 

¿Puede una web protegerse del web scraping?

La respuesta a esta pregunta no es solo que, si puede, sino que debe hacerlo si realmente quiere poder diferenciarse a través de su contenido único.

Hay diferentes formas de protegerse de este tipo de “ataques”.

Por un lado, podemos usar herramientas de seguridad perimetral como firewalls que bloqueen aquellas direcciones IP que veas que te están provocando muchos accesos.

Si no lo tiene claro también puedes limitar el número de solicitudes de una misma dirección IP.

Otras acciones eficaces son gestionar los posibles ataques mediante el fichero .htaccess. En este fichero se configuran parámetros relativos al servidor web y de esta forma podemos prevenirnos de web scraping.

La técnica del honeypot es muy útil y consiste en poner trampas a los bots haciéndoles creer acceden a un contenido cuando en realidad son enlaces falsos que simulan mayor profundidad de la web. Si usamos esta técnica y con el fin de no perjudicar nuestro posicionamiento web por enlaces rotos, deberemos reflejarlo en el fichero robots.txt

 

Como hemos podido ver la técnica del web scraping no es más que una manera de espiar a la competencia y obtener de forma automatizada información que nos puede servir para mejorar nuestras estrategias de venta o generar bases de datos contenidos que otros han dedicado tiempo a crear.

Es muy importante protegernos de estas acciones pues si nos esforzamos en tener una web atractiva o una tienda on-line competitiva, podemos perder todo nuestro esfuerzo en pocos minutos si no ponemos barreras al web scraping.