Back to Question Center
0

Scraping web con semalt Expert

1 answers:

O rascado web, tamén coñecido como web harvesting, é unha técnica usada para extraer datos de sitios web. O software de recolección web pode acceder a unha web directamente usando HTTP ou un navegador web. Mentres o proceso pode ser implementado manualmente por un usuario de software, a técnica generalmente implica un proceso automatizado implementado usando un explorador web ou un bot.

O rascado web é un proceso cando os datos estructurados son copiados da web nunha base de datos local para revisión e recuperación. Consiste en buscar unha páxina web e extraer o seu contido. O contido da páxina pode ser analizado, buscado, reestructurado e os seus datos copiados nun dispositivo de almacenamento local.

As páxinas web generalmente están feitas a partir de linguaxes de texto baseadas en texto como XHTML e HTML, que conteñen unha gran cantidade de datos útiles en forma de texto. Non obstante, moitos destes sitios web foron deseñados para usuarios finais humanos e non para uso automatizado. Este é o motivo polo que se creou o software de raspado.

Hai moitas técnicas que se poden empregar para o rascado efectivo da web. Algúns deles foron elaborados a continuación:

1. Copiar e pegar de forma humana

De cando en vez, a mellor ferramenta de rascado web non pode substituír a precisión e a eficacia da copia e pasta dos humanos..Isto é máis aplicable en situacións nas que os sitios web configuran barreiras para evitar a automatización da máquina.

2. Patrón de texto correspondente

Este é un enfoque bastante simple pero potente utilizado para extraer datos de páxinas web. Pode basearse no comando grep de UNIX ou só unha instalación de expresión regular dunha linguaxe de programación determinada, por exemplo, Python ou Perl.

3. Programación HTTP

A programación HTTP pódese usar tanto para páxinas web estáticas como dinámicas. Os datos son extraídos mediante a publicación de solicitudes HTTP a un servidor web remoto mentres se fai uso da programación de socket.

4. Análise de HTML

Moitos sitios tenden a ter unha extensa colección de páxinas creadas de forma dinámica dende unha fonte de estrutura subyacente como unha base de datos. Aquí, os datos que pertencen a unha categoría similar están codificados en páxinas similares. Na análise de HTML, un programa xeralmente detecta tal modelo nunha fonte particular de información, recupera os seus contidos e transfórmaa nun formulario de afiliado, denominado envoltorio.

5. DOM parsing

Nesta técnica, un programa incorpora un navegador web completo como Mozilla Firefox ou Internet Explorer para recuperar o contido dinámico xerado polo script do lado do cliente. Estes navegadores tamén poden analizar as páxinas web nunha árbore DOM en función dos programas que poden extraer partes das páxinas.

6. Recoñecemento de anotación semántica

As páxinas que pretende raspar poden abarcar marcas e anotacións semánticas ou metadatos que se poidan usar para localizar fragmentos de datos específicos. Se estas anotacións están incrustadas nas páxinas, esta técnica pode ser vista como un caso especial de análise DOM. Estas anotacións tamén poden ser organizadas nunha capa sintáctica, e logo almacenadas e xestionadas por separado das páxinas web. Permite que os rasquinadores recuperen o esquema de datos, así como os comandos desta capa antes de que elimine as páxinas.

5 days ago
Scraping web con semalt Expert
Reply