Back to Question Center
0

Semalt: Como usar o Python para descubrir un sitio web?

1 answers:

Os datos desempeñan un papel crítico nas investigacións, non é? Pode levar a unha nova forma de mirar as cousas e desenvolver outras ideas. O máis desafortunado é que os datos que estás a buscar non adoitan estar fácilmente dispoñibles. Podes atopalo en Internet, pero pode non estar nun formato que se poida descargar. Neste caso, pode utilizar a técnica de rascado web para programar e reunir os datos que necesita.

Hai varios enfoques de rascado e linguaxes de programación que poden ser de axuda a través deste proceso. Este artigo o guiará sobre como usar o idioma python para desfacer un sitio. Obterás moitos coñecementos sobre o funcionamento das páxinas web. Tamén pode entender como os desenvolvedores estruturan os datos en calquera sitio web.

O mellor punto de partida é descargar e instalar a Anaconda Python Distribution na súa máquina informática. Tamén podes facer algúns tutoriais sobre os conceptos básicos desta linguaxe de programación. O mellor lugar para comezar podería ser Codecademy, especialmente se non ten idea neste campo.

Esta guía fará uso do sitio web de cotización actual de Polk Country para os internos. Guiarémoste sobre como usar unha secuencia de comandos de Python para extraer unha lista de presos e obter algúns datos como a cidade de residencia e carreira para cada preso. Todo o guión que o faremos levarémolo almacénase e está aberto en GitHub..Esta é unha das populares plataformas en liña que permiten compartir códigos informáticos. Os códigos teñen unha longa lista de comentarios que poden ser de gran axuda para ti.

Ao rascar calquera sitio, a primeira ferramenta a buscar é un navegador web. A maioría dos navegadores darán aos usuarios ferramentas de inspección HTML que axudan a levantar a escotilla do motor ea comprender a estrutura da páxina. A forma na que accede a cada ferramenta varía dun navegador a outro. Non obstante, o soporte é a "fonte de páxina de visualización, e pode obterse premendo co botón dereito do rato na páxina directamente.

Mentres ve a fonte HTML da páxina, é aconsellable listar os detalles das ligazóns ao preso nas filas da táboa. O seguinte paso é escribir un script que imos usar para extraer esta información. Os dous paquetes de Python que imos usar no proceso de elevación pesado son a sopa fermosa e as solicitudes. Asegúrese de instalalos antes de comezar a executar o código.

O script de rascado web fará tres cousas. Estes inclúen a carga das páxinas de listaxe e a extracción de ligazóns ás páxinas de detalles, cargando cada páxina de detalles e extraendo datos e imprimindo os datos extraídos en función de como se filtra como a cidade de residencia e raza. Unha vez que entende isto, o seguinte paso é comezar o proceso de codificación usando a sopa e as solicitudes.

En primeiro lugar, loxicamente cargue a páxina de recluídos utilizando as URL requests.get e logo use a fermosa sopa para bolsa. Despois diso, extraemos a ligazón ás páxinas de detalles percorrendo cada fila. Despois de analizar os detalles do preso, o seguinte paso é extraer o sexo, a idade, a raza, o tempo de reserva e os valores de nome ao dicionario. Cada preso obterá o seu dicionario e todos os dicionarios engadiranse á lista do preso. Finalmente, analiza os valores da raza e da cidade antes de imprimir finalmente a túa lista.

5 days ago
Semalt: Como usar o Python para descubrir un sitio web?
Reply