El raspado del contenido (también conocido como raspado web, recolección web, minería de datos web, etc.) es el procedimiento para copiar datos de un sitio web. Los "raspadores" (limpiaparabrisas) contenido son las personas o el software que copian los datos. El web scraping no es algo malo.

De hecho, todos los navegadores web son básicamente raspadores de contenido. Hay muchos propósitos legítimos para hacer raspado de contenido, como la indexación web para motores de búsqueda, por ejemplo.

Vea nuestro artículo en Cómo evitar que Google indexe su blog de WordPress

La verdadera preocupación es si los raspadores de contenido en su sitio web son dañinos o no. Los competidores pueden querer robar su contenido y publicarlo como perteneciente a ellos. Si puede distinguir a los usuarios legítimos de los malos, tiene una mejor oportunidad de protegerse. Este artículo explica los conceptos básicos del raspado web, así como algunos métodos para deshacerse de él (o al menos reducir su importancia).

Pero antes, si nunca has instalado WordPress, descubre Cómo instalar un blog de WordPress en 7 pasos et ¿Cómo encontrar, instalar y activar un tema de WordPress en tu blog 

Luego de vuelta a por qué estamos aquí.

Tipos de raspadores de contenido

Hay muchas formas diferentes para que los scrapers de contenido descarguen datos. Es importante conocer los diferentes métodos y la tecnología que utilizan. Los métodos van desde baja tecnología (una persona copiar y pegar el contenido manualmente) a robots sofisticados (software automatizado capaz de simular la actividad humana en un navegador). Aquí hay un resumen de lo que debe hacer:

  • Spiders: El rastreo web es una parte importante del funcionamiento de los raspadores de contenido. Una araña como Googlebot comenzará seleccionando una sola página web y pasará de un enlace a otro para descargar páginas web.
  • scripts de shell: Puede usar Linux Shell para crear raspadores de contenido con scripts como GNU Wget para descargar contenido.
  • Raspador HTML: son similares a los scripts de shell. Este tipo de raspador es muy común. Funciona obteniendo la estructura HTML de un sitio web para buscar datos.
  • Pantallas de vista: Un limpiador de pantalla es un programa que captura datos de un sitio web imitando el comportamiento de un usuario humano que usa una computadora para navegar por Internet.
  • copia humana: Aquí es donde una persona copia manualmente el contenido de su sitio web. Si alguna vez ha publicado en línea, es posible que haya notado que el plagio es muy común. Después de que el halago inicial desaparece, la realidad de que alguien se está beneficiando de su trabajo encaja.

Hay varias formas de hacer lo mismo. Las categorías de raspadores enumeradas anteriormente no son una lista exhaustiva. Además, hay mucha superposición entre las categorías.

Lea también nuestro artículo sobre ¿Cómo y por qué una auditoría cualitativa de su contenido

Cómo proteger tu blog

Proteger un blog de los raspadores de contenido

1. Limitación de velocidad y bloqueo

Puede luchar contra muchos bots detectando el problema primero. Es típico que un robot automatizado spam su servidor con un número excepcionalmente alto de solicitudes. La limitación de velocidad, como su nombre indica, limita las solicitudes del servidor de un cliente individual al establecer una regla.

Puede hacer cosas como medir los milisegundos entre solicitudes. Si la interacción con su sitio web es demasiado rápida, entonces sabe que es un bot. A continuación, bloquear esta dirección IP. Puede bloquear direcciones IP según varios criterios, incluido su país de origen.

2. Registro y conexión

Registro e inicio de sesión son una forma popular de mantener el contenido alejado de miradas indiscretas. Puede obstaculizar el progreso de los robots. Todo lo que necesita hacer es condicionar el acceso a su contenido a una conexión. Los conceptos básicos de seguridad de inicio de sesión se aplican aquí. Tenga en cuenta que los motores de búsqueda no indexarán las páginas que requieren registro e inicio de sesión.

3. Honeypots y datos falsos.

En informática, los "honeypots" son operaciones encubiertas virtuales. Usted reúne a los atacantes potenciales colocando trampas con un honeypot, para detectar el tráfico de los scrapers de contenido. Hay un sinfín de formas de hacerlo.

Por ejemplo, puede agregar un enlace invisible en su página web. A continuación, cree un algoritmo que bloquee la dirección IP del cliente que hizo clic en el enlace. Los honeypots más sofisticados pueden ser difíciles de configurar y mantener. La buena noticia es que existen muchos proyectos Honeypot de código abierto. Mira este gran lista de honeypots impresionantes en github.

4. Use un CAPTCHA

Captcha significa " Completamente prueba de Turing pública y automática para contar máquinas y humanos básicamente, una prueba para saber la diferencia entre humanos y robots. Los captchas pueden ser aburridos, pero también son útiles. Puede usar para bloquear áreas a las que cree que un bot puede querer apuntar, como un botón de correo electrónico en su formulario de contacto. Hay muchos buenos complementos de Captcha disponibles en WordPress, incluido el " Captcha De Jetpack.

Descubre también algunos complementos premium de WordPress  

Puedes usar otros plugins de WordPress para dar una apariencia moderna y optimizar el manejo de tu blog o sitio web.

Aquí le ofrecemos algunos complementos premium de WordPress que lo ayudarán a hacerlo.

1. Raya para Arforms

ARForms tiene una nueva extensión que acepta pagos a través de la pasarela de pago Stripe. Se llama "ARForms Stripe". Este último integra entradas de formularios y pagos en un solo proceso.

Raya para arforms

Puede facturar a los clientes con una cantidad dinámica al instante después del envío del formulario ARForms.

Lea también nuestro artículo sobre Cómo utilizar la raya en WooCommerce y fácil Descarga digital

¡Solo necesita crear un formulario con ARForms, configurarlo con Stripe y todo está listo! Puede establecer el pago por Stripe en poco tiempo.

Descargar | Demo | alojamiento web

2.AX Transmisión social

Si quieres mostrar múltiples canales de medios sociales en su sitio web, entonces el complemento Tablero social de WordPress le permitirá hacer esto proporcionándole seis formas de ver la actividad de su cuenta. También se beneficiará del soporte para 17 redes sociales y varios diseños personalizables.

Complemento de wordpress de ax social stream

Sus características son, entre otras: 6 modos de visualización de feeds diferentes, soporte para una gran mayoría de redes sociales, diseño totalmente receptivo, soporte para banners publicitarios, Soporte multilingüe, un administrador de temas, documentación detallada, etc ...

Descargar | Demo | alojamiento web

3. Mapas interactivos del mundo

Interactive World Maps te ayuda a crear tantos mapas de geolocalización como quieras, continentes, países o regiones… y esto con marcadores interactivos y de colores.

Los mapas del mundo interactivos

Es compatible con las últimas versiones de WordPress y encaja perfectamente con el Complemento Visual Composer.

Descubre nuestro Complementos de 8 WordPress para personalizar el aspecto de su sitio web

Gracias a Interactive World Maps, puede mostrar varios tipos de regiones, tales como: un mapa de todo el mundo, un continente o un subcontinente, un país y mucho más.

Descargar Demo | alojamiento web

Otros recursos recomendados

También lo invitamos a consultar los recursos a continuación para avanzar en el control y agarre de su sitio web y blog.

Conclusión

Aquí! Eso es todo por este tutorial, espero que lo ayude a configurar una lista práctica de tareas pendientes para proteger eficazmente su blog de WordPressno dude en comparte el consejo con tus amigos en tus redes sociales.

Sin embargo, también podrá consultar nuestra Recursos, si necesita más elementos para llevar a cabo sus proyectos de creación de sitios de Internet, consulte nuestra guía sobre Creación de blog de WordPress.

Pero, mientras tanto, cuéntenos sobre su comentarios y sugerencias en la sección dedicada.

...