{
"cells": [
{
"cell_type": "markdown",
"id": "49ee5ba2-38d8-4bdc-af42-69de0cfe999f",
"metadata": {},
"source": [
"# D: Web Scraping\n",
"\n",
"Para introducir este tema haremos uso de [una presentación (PDF)](./ficherosAuxiliares/webScrapingAstronomia.pdf).\n",
"\n",
"[](./ficherosAuxiliares/webScrapingAstronomia.pdf)"
]
},
{
"cell_type": "markdown",
"id": "317c5c04-3c84-42e1-bd81-2cdca7d21042",
"metadata": {},
"source": [
"## Scraping Básico\n",
"### Descargando páginas web\n",
"\n",
"El primer paso antes de hacer cualquier tipo de scraping es decidir que página queremos descargar y analizar. En nuestro caso vamos a obtener datos de la página del Instituto Carlos III sobre la evolución del COVID-19:\n",
"\n",
"https://covid19.isciii.es/ - La reemplazamos por https://zerjio.com/temp/covid19.html\n",
"\n",
"Lo primero que deberíamos hacer sería visualizar la página en nuestro navegador favorito (¿Firefox?) para comprobar el aspecto que tiene y la información que podemos descargar.\n",
"\n",
"A continuación tendremos que emular el comportamiento del navegador para obtener la página: tendremos que hacer una petición HTTP para recuperar la página web. Lo haremos usando la biblioteca \"requests\".\n",
"\n",
"Información y ejemplos sobre dicho módulo: https://www.w3schools.com/python/module_requests.asp"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "6de1e7fa-7552-463b-9b79-0b1ba5b11aa2",
"metadata": {},
"outputs": [],
"source": [
"import requests\n",
"from pprint import pprint\n",
"\n",
"#respuesta = requests.get(\"https://covid19.isciii.es/\") # Utilizamo el metodo GET del protocolor HTTP\n",
"respuesta = requests.get(\"https://zerjio.com/temp/covid19.html\") "
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "5d4ed4e5-1ad7-4788-a830-5eec835a4eca",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"{'_content': b' \\n
\\n \\n '\n",
" b' \\n\\n \\n P\\xc3\\xa1gina del COVID 19 para solv'\n",
" b'entar problema en el curso de Python, m\\xc3\\xb3dulo de web-scr'\n",
" b'apping\\n \\n \\n \\n
Esta p\\xc3\\xa1gina \"simula\" una p'\n",
" b'\\xc3\\xa1gina que hab\\xc3\\xada en el direcci\\xc3\\xb3n https://c'\n",
" b'ovid19.isciii.es/ . Aunque no se parece est\\xc3\\xa9ticamente t'\n",
" b'iene los mismos elementos para que los ejemplos funcionen igual.'\n",
" b'
\\n \\n
\\xc3\\x9altima actualizaci\\xc3\\xb3n 10 de Marzo de 2020 a las\\n 10:10
\\n \\n \\n
\\n \\n
Dato 1<'\n",
" b'/td>
33
\\n
Dato 2
666
'\n",
" b'
\\n
Dato 3
7777
\\n '\n",
" b'
Dato 4
99
\\n \\n \\n '\n",
" b'
\\n \\n
La que viene a continuaci\\xc3\\xb3n '\n",
" b'es la tabla de datos de verdad.
\\n \\n \\n
\\n
\\n
\\n
Comunidad
\\n '\n",
" b'
Contagiados
\\n
Fallecidos
\\n '\n",
" b'
Curados
\\n
\\n \\n \\n '\n",
" b' \\n
\\n
Andaluc\\xc3\\xada\\n
80
\\n
\\n \\n
\\n \\n
\\n
'\n",
" b'Arag\\xc3\\xb3n
\\n
50
\\n
'\n",
" b'\\n
\\n
\\n \\n \\n
Principado de Asturias
\\n
30
\\n
\\n
\\n <'\n",
" b'/tr>\\n \\n
\\n
Islas Baleares\\n
10
\\n
\\n \\n
\\n \\n
\\n
'\n",
" b'Canarias
\\n
35
\\n
\\n '\n",
" b'
\\n
\\n \\n
\\n '\n",
" b'
Cantabria
\\n
12
\\n '\n",
" b'
\\n
\\n
\\n \\n '\n",
" b'
\\n
Castilla y Le\\xc3\\xb3n
\\n '\n",
" b'
60
\\n
\\n
\\n '\n",
" b'
\\n \\n
\\n
Catalu'\n",
" b'\\xc3\\xb1a
\\n
110
\\n
\\n
\\n
\\n \\n <'\n",
" b'tr>\\n
Galicia
\\n
20
\\n '\n",
" b'
\\n
\\n \\n \\n'\n",
" b'
\\n
C. Valenciana
\\n <'\n",
" b'td>62\\n
\\n
\\n '\n",
" b'
\\n \\n
\\n
Extremadura
\\n
7
\\n
\\n
'\n",
" b'
\\n
\\n \\n
\\n
Co'\n",
" b'munidad de Madrid
\\n
760
\\n \\n
\\n
\\n \\n '\n",
" b'
\\n
Regi\\xc3\\xb3n de Murcia
\\n <'\n",
" b'td>7\\n
\\n
\\n '\n",
" b'
\\n \\n
\\n
Comunidad Foral '\n",
" b'de Navarra
\\n
9
\\n
\\n '\n",
" b'
\\n
\\n \\n
\\n '\n",
" b'
Pa\\xc3\\xads Vasco
\\n
190
\\n '\n",
" b'
\\n
\\n
\\n '\n",
" b' \\n
\\n
La Rioja
\\n
'\n",
" b'130
\\n
\\n
\\n <'\n",
" b'/tr>\\n \\n
\\n
Ceuta
\\n '\n",
" b'
0
\\n
\\n
\\n '\n",
" b'
\\n \\n
\\n
Melilla\\n
0
\\n
\\n
\\n
\\n \\n \\n
\\n \\n
Vaya faena nos han hecho los de la p\\xc3\\xa1gina...
\\n \\n \\n \\n \\n \\n \\n',\n",
" '_content_consumed': True,\n",
" '_next': None,\n",
" 'connection': ,\n",
" 'cookies': ,\n",
" 'elapsed': datetime.timedelta(microseconds=188306),\n",
" 'encoding': 'ISO-8859-1',\n",
" 'headers': {'Date': 'Thu, 20 Apr 2023 10:29:30 GMT', 'Server': 'Apache/2.4.18 (Ubuntu)', 'Last-Modified': 'Mon, 11 May 2020 10:04:22 GMT', 'ETag': '\"1079-5a55c78929580-gzip\"', 'Accept-Ranges': 'bytes', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '1086', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'text/html'},\n",
" 'history': [],\n",
" 'raw': ,\n",
" 'reason': 'OK',\n",
" 'request': ,\n",
" 'status_code': 200,\n",
" 'url': 'https://zerjio.com/temp/covid19.html'}\n"
]
}
],
"source": [
"# Hemos obtenido un objeto de tipo \"Response\", donde estará toda la información que hemos obtenido de la página\n",
"# https://www.w3schools.com/python/ref_requests_response.asp\n",
"\n",
"pprint(vars(respuesta)) # Podemos inspeccionar el objeto y ver que campos nos interesan. Particularmente:\n"
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "a9d0cfa2-10b3-4648-9e76-53b058ab2e3b",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"200\n",
"OK\n",
"0:00:00.188306\n",
"ISO-8859-1\n"
]
}
],
"source": [
"print(respuesta.status_code) # El código de estado: 200 Es el código de que todo ha ido bien. \n",
" # Lista de códigos de estados posibles: https://www.restapitutorial.com/httpstatuscodes.html\n",
" \n",
"print(respuesta.reason) # Una descripción textual del código de respuesta \n",
"\n",
"\n",
"print(respuesta.elapsed) # Tiempo que se ha tardado desde que se hizo la petición hasta que se obtuvo la respuesta\n",
"\n",
"\n",
"print(respuesta.encoding) # La codificación del documento (juego de caracteres usado)\n"
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "feb9cbcb-a76b-438d-8307-30210d0fe76d",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"b' \\n \\n \\n \\n\\n \\n P\\xc3\\xa1gina del COVID 19 para solventar problema en el curso de Python, m\\xc3\\xb3dulo de web-scrapping\\n \\n \\n \\n
Esta p\\xc3\\xa1gina \"simula\" una p\\xc3\\xa1gina que hab\\xc3\\xada en el direcci\\xc3\\xb3n https://covid19.isciii.es/ . Aunque no se parece est\\xc3\\xa9ticamente tiene los mismos elementos para que los ejemplos funcionen igual.
\\n \\n
\\xc3\\x9altima actualizaci\\xc3\\xb3n 10 de Marzo de 2020 a las\\n 10:10
\\n \\n \\n
\\n \\n
Dato 1
33
\\n
Dato 2
666
\\n
Dato 3
7777
\\n
Dato 4
99
\\n \\n \\n
\\n \\n
La que viene a continuaci\\xc3\\xb3n es la tabla de datos de verdad.
\\n \\n \\n
\\n \\n
\\n
Comunidad
\\n
Contagiados
\\n
Fallecidos
\\n
Curados
\\n
\\n \\n \\n \\n
\\n
Andaluc\\xc3\\xada
\\n
80
\\n
\\n
\\n
\\n \\n
\\n
Arag\\xc3\\xb3n
\\n
50
\\n
\\n
\\n
\\n \\n
\\n
Principado de Asturias
\\n
30
\\n
\\n
\\n
\\n \\n
\\n
Islas Baleares
\\n
10
\\n
\\n
\\n
\\n \\n
\\n
Canarias
\\n
35
\\n
\\n
\\n
\\n \\n
\\n
Cantabria
\\n
12
\\n
\\n
\\n
\\n \\n
\\n
Castilla y Le\\xc3\\xb3n
\\n
60
\\n
\\n
\\n
\\n \\n
\\n
Catalu\\xc3\\xb1a
\\n
110
\\n
\\n
\\n
\\n \\n
\\n
Galicia
\\n
20
\\n
\\n
\\n
\\n \\n
\\n
C. Valenciana
\\n
62
\\n
\\n
\\n
\\n \\n
\\n
Extremadura
\\n
7
\\n
\\n
\\n
\\n \\n
\\n
Comunidad de Madrid
\\n
760
\\n
\\n
\\n
\\n \\n
\\n
Regi\\xc3\\xb3n de Murcia
\\n
7
\\n
\\n
\\n
\\n \\n
\\n
Comunidad Foral de Navarra
\\n
9
\\n
\\n
\\n
\\n \\n
\\n
Pa\\xc3\\xads Vasco
\\n
190
\\n
\\n
\\n
\\n \\n
\\n
La Rioja
\\n
130
\\n
\\n
\\n
\\n \\n
\\n
Ceuta
\\n
0
\\n
\\n
\\n
\\n \\n
\\n
Melilla
\\n
0
\\n
\\n
\\n
\\n \\n \\n
\\n \\n
Vaya faena nos han hecho los de la p\\xc3\\xa1gina...
\\n \\n \\n \\n \\n \\n \\n'\n"
]
}
],
"source": [
"print(respuesta.content) # Y lo que probablemente nos interesa más: el CONTENIDO de la página.\n",
" # El \"problema\" es que es una cadena \"binaria\"."
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "a7fb1f60-f2fe-4775-a9a1-208bc1ac0008",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
" \n",
" \n",
" \n",
" \n",
"\n",
" \n",
" Página del COVID 19 para solventar problema en el curso de Python, módulo de web-scrapping\n",
" \n",
" \n",
" \n",
"
Esta página \"simula\" una página que había en el dirección https://covid19.isciii.es/ . Aunque no se parece estéticamente tiene los mismos elementos para que los ejemplos funcionen igual.
\n",
" \n",
"
Última actualización 10 de Marzo de 2020 a las\n",
" 10:10
\n",
" \n",
" \n",
"
\n",
" \n",
"
Dato 1
33
\n",
"
Dato 2
666
\n",
"
Dato 3
7777
\n",
"
Dato 4
99
\n",
" \n",
" \n",
"
\n",
" \n",
"
La que viene a continuación es la tabla de datos de verdad.
\n",
" \n",
" \n",
"
\n",
" \n",
"
\n",
"
Comunidad
\n",
"
Contagiados
\n",
"
Fallecidos
\n",
"
Curados
\n",
"
\n",
" \n",
" \n",
" \n",
"
\n",
"
Andalucía
\n",
"
80
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Aragón
\n",
"
50
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Principado de Asturias
\n",
"
30
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Islas Baleares
\n",
"
10
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Canarias
\n",
"
35
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Cantabria
\n",
"
12
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Castilla y León
\n",
"
60
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Cataluña
\n",
"
110
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Galicia
\n",
"
20
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
C. Valenciana
\n",
"
62
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Extremadura
\n",
"
7
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Comunidad de Madrid
\n",
"
760
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Región de Murcia
\n",
"
7
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Comunidad Foral de Navarra
\n",
"
9
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
País Vasco
\n",
"
190
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
La Rioja
\n",
"
130
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Ceuta
\n",
"
0
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Melilla
\n",
"
0
\n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
"
\n",
" \n",
"
Vaya faena nos han hecho los de la página...
\n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
"\n"
]
}
],
"source": [
"html = respuesta.content.decode(\"UTF-8\") # Lo podemos codificar a una cadena \"normal\"\n",
"\n",
"print(html)"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "ae8dc804-6631-4fac-ae6b-d4aefa8f90a0",
"metadata": {},
"outputs": [],
"source": [
"# Podemos guardar el código HTML a un fichero local para poder inspeccionarlo con más tranquilidad\n",
"\n",
"text_file = open(\"salidas/covid-19.html\", \"w\")\n",
"text_file.write(html)\n",
"text_file.close()"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "f26646fc-95ad-4f58-992a-dbbe5f0bee3e",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Línea 1: \n",
"Línea 2: \n",
"Línea 3: \n",
"Línea 4: \n",
"Línea 5: \n",
"Línea 6: \n",
"Línea 21: Página del COVID 19 para solventar problema en el curso de Python, módulo de web-scrapping\n",
"Línea 22: \n",
"Línea 23: \n",
"Línea 24: \n",
"Línea 25:
Esta página \"simula\" una página que había en el dirección https://covid19.isciii.es/ . Aunque no se parece estéticamente tiene los mismos elementos para que los ejemplos funcionen igual.
\n",
"Línea 26: \n",
"Línea 27:
Última actualización 10 de Marzo de 2020 a las\n",
"Línea 28: 10:10
\n",
"Línea 29: \n",
"Línea 30: \n",
"Línea 31:
\n",
"Línea 32: \n",
"Línea 33:
Dato 1
33
\n",
"Línea 34:
Dato 2
666
\n",
"Línea 35:
Dato 3
7777
\n",
"Línea 36:
Dato 4
99
\n",
"Línea 37: \n",
"Línea 38: \n",
"Línea 39:
\n",
"Línea 40: \n",
"Línea 41:
La que viene a continuación es la tabla de datos de verdad.
\n",
"Línea 185: \n",
"Línea 186: \n",
"Línea 187: \n",
"Línea 188: \n",
"Línea 189: \n",
"Línea 190: \n"
]
}
],
"source": [
"# También puede ser interesante usar el iterador que te permite recorrer el contenido obtenido línea a línea\n",
"for num, linea in enumerate(respuesta.iter_lines(), start=1):\n",
" print(\"Línea %d: %s\" % (num, linea.decode(\"UTF-8\")) )"
]
},
{
"cell_type": "markdown",
"id": "26ed47a0-ed53-4bfd-ae99-bc9bc0746800",
"metadata": {},
"source": [
"### Bajando ficheros binarios\n",
"\n",
"Normalmente las páginas web están escritas en ```HTML``` que es tipo de fichero de texto (string) fácil de manejar. Sin embargo en ocasiones querremos bajar ficheros que estén en otros formatos que no sean texto (binarios), como son los formatos ```PDF```, ```EXE```, ```ZIP```, ```JPG```.\n",
"\n",
"En una sección anterior del curso se planteó un script para bajar el BOP de Granada y luego sacar información del ```PDF```. A continuación vamos a \"refinar\" el script que se creó simplificando y aprovechando alguna información que nos ofrece el protocolo ```HTTP```.\n"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "339a6d34-fbff-4278-a1d6-a07cac4b3fcf",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"2023-04-20 12:29:30.915929\n",
"20/04/2023\n",
"https://bop2.dipgra.es/opencms/opencms/portal/DescargaPDFBoletin?fecha=20/04/2023\n"
]
}
],
"source": [
"import datetime\n",
"import requests\n",
"\n",
"baseURL=\"https://bop2.dipgra.es/opencms/opencms/portal/DescargaPDFBoletin?fecha=\"\n",
"\n",
"fecha = datetime.datetime.now()\n",
"#fecha = datetime.datetime(2020, 5, 6) # Año, mes, día, para una fecha que no sea hoy\n",
"print(fecha)\n",
"\n",
"fechaFormateada = fecha.strftime(\"%d/%m/%Y\") # Formateamos la fecha, https://www.programiz.com/python-programming/datetime/strftime\n",
"print(fechaFormateada)\n",
"\n",
"url = baseURL + fechaFormateada\n",
"print(url)"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "245f7b13-06fc-4839-99e2-33eb5d1fe353",
"metadata": {},
"outputs": [],
"source": [
"respuesta = requests.get(url) # hacemos la petición y se descargan los contenidos"
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "6e4f30b9-1e9c-4167-aad6-a9a67c52f6d7",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Cabeceras recibidas: {'Date': 'Thu, 20 Apr 2023 10:25:00 GMT', 'Content-disposition': 'attachment;filename=Boletin_20230420.pdf', 'Content-Type': 'application/pdf', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Transfer-Encoding': 'chunked'}\n",
"\n",
"Tipo de información descargada: application/pdf\n",
"\n",
"Tamaño descargado: 563625 bytes\n",
"\n",
"Campo que nos sugiere el nombre del fichero descargado: attachment;filename=Boletin_20230420.pdf\n",
"\n",
"Fichero salidas/Boletin_20230420.pdf grabado en disco.\n",
"\n"
]
}
],
"source": [
"print(\"Cabeceras recibidas: \" + str(respuesta.headers) + \"\\n\") # Inspeccionamos las cabeceras que hemos recibido\n",
"\n",
"# Nos interesa ver que \"Content-Type\" ya nos indica que es un fichero que puede abrirse con una aplicación \n",
"# que maneje PDFs\n",
"# Además en alguna ocasión podemos recibir que el tamaño del contenido descargado: \"Content-Length\"\n",
"\n",
"print(\"Tipo de información descargada: \" + respuesta.headers['Content-Type'] + \"\\n\")\n",
"\n",
"tamanioDescargado = 0\n",
"if \"Content-Length\" in respuesta.headers:\n",
" tamanioDescargado = int(respuesta.headers['Content-Length'])\n",
"else:\n",
" tamanioDescargado = len(respuesta.content) # Si no nos lo dice la cabecera podemos mirar el tamaño del\n",
" # contenido descargado\n",
" \n",
" \n",
"print(\"Tamaño descargado: \" + str(tamanioDescargado) + \" bytes\\n\")\n",
"\n",
"# Además nos damos cuenta que la aplicación web nos sugiere un nombre para el fichero que vamos a descargar:\n",
"\n",
"print(\"Campo que nos sugiere el nombre del fichero descargado: \" + respuesta.headers['Content-disposition'] + \"\\n\")\n",
"\n",
"# En la aplicación web que sirve los BOP de Granada siempre devuelve una respuesta válida (código 200)\n",
"# aunque no exista el PDF de la fecha pedida. En una aplicación bien hecha devolvería un codigo de error distinto\n",
"# (NOT FOUND o similar). En cualquier caso nosotros nos hemos dado cuenta que si el contenido devuelto es 0 bytes\n",
"# es que ese día no hay BOP.\n",
"\n",
"if tamanioDescargado == 0:\n",
" print(\"En la fecha indicada no hay BOP (o es una fecha incorrecta).\\n\")\n",
"else:\n",
" \n",
" filename = \"salidas/\" + respuesta.headers['Content-disposition'][20:] # Saco el nombre del fichero truncando la cadena\n",
" \n",
" myfile = open(filename,'wb')\n",
" myfile.write(respuesta.content)\n",
" myfile.close()\n",
" \n",
" print(\"Fichero \" + filename + \" grabado en disco.\\n\")"
]
},
{
"cell_type": "markdown",
"id": "1413256a-6905-404f-a9e8-9c8b69d85998",
"metadata": {},
"source": [
"### Solucionando un problema común: requests.exceptions.SSLError \n",
"\n",
"Al intentar hacer scraping a algunas páginas web puede que nos salte una excepción del tipo ```requests.exceptions.SSLError```. Ese problema viene derivado de una mala configuración del servidor web (no es problema nuestro): Básicamente no tiene actualizado el certificado digital necesario para establecer una conexión segura. En realidad la explicación es más técnica, pero basta con saber eso para reconocer el error. La solución es \"fácil\": solo tenemos que decirle al módulo ```requests``` que no haga comprobaciones del certificado digital. Con eso podremos proceder con la descarga, aunque en teoría es \"peligroso\", porque no podemos tener certeza de que el contenido que bajemos sea legítimo (podrían haber crackeado la web que consultamos, cosa no muy común). Para conseguir solucionar esto solo hay que añadir el parámetro ```verify=False``` en nuestra llamada ```requests.get(...)```. Eso sí, cuando desactivemos la comprobación de certificados nos aparecerá un ```Warning``` avisándonos de los \"peligros\" de no poder comprobarlos. Por ejemplo:"
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "faee6c23-e99d-4455-9764-7d0a6a7bd5f9",
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"/home/zerjillo/anaconda3/envs/cursoAstronomia2/lib/python3.8/site-packages/urllib3/connectionpool.py:1045: InsecureRequestWarning: Unverified HTTPS request is being made to host 'zerjio.com'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/1.26.x/advanced-usage.html#ssl-warnings\n",
" warnings.warn(\n"
]
}
],
"source": [
"respuesta = requests.get(\"https://zerjio.com/temp/covid19.html\", verify=False) "
]
},
{
"cell_type": "markdown",
"id": "7defbdc7-953e-4584-9971-63d4076aea11",
"metadata": {},
"source": [
"## Parseando páginas web: trabajar con el ```HTML```\n",
"\n",
"Dentro de la cadena del código HTML podemos buscar la información que nos interese recuperar. Podemos hacerlo de múltiples maneras. Empezaremos con algunas muy básicas y rudimentarias e iremos poco a poco mejorando la manera de acceder.\n",
"\n",
"### Opción 1: Buscaremos a lo \"bestia\" con las funciones de búsqueda de cadenas básicas: ```str.find()```\n",
"\n",
"https://www.journaldev.com/23666/python-string-find\n",
"\n",
"Revisando el código de la página encontramos la fecha de actualización de la misma:\n",
"\n",
" ...\n",
" [Actualizado a 10 de Marzo de 2020 a las 10:10 horas] Basada en la notificación diaria de casos agregados de COVID-19 al Ministerio de Sanidad\n",
" ...\n",
" \n",
"Y nos percatamos que la fecha en formato texto va encerrada entre: `````` y ``````. Busquémosla\n"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "f47d7547-4a0e-42fe-a3be-d09a2a1b32e8",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"10 de Marzo de 2020\n",
"10:10\n"
]
}
],
"source": [
"import requests # Estas lineas las hemos copiado del anterior Notebook\n",
"respuesta = requests.get(\"https://zerjio.com/temp/covid19.html\") # Esta página reemplaza la anterior\n",
"html = respuesta.content.decode(\"UTF-8\") # https://covid19.isciii.es/\n",
"\n",
"\n",
"cadenaBuscada = ''\n",
"posicionInicio = html.find(cadenaBuscada) + len(cadenaBuscada)\n",
"posicionFinal = html.find('', posicionInicio) # El segundo parámetro de find() es la posición desde\n",
" # donde empezar a buscar el primer parámetro\n",
"\n",
"fecha = html[posicionInicio:posicionFinal]\n",
"\n",
"print(fecha)\n",
"\n",
"# Vamos a hacer lo mismo con la hora\n",
"\n",
"cadenaBuscada = ''\n",
"posicionInicio = html.find(cadenaBuscada) + len(cadenaBuscada)\n",
"posicionFinal = html.find('', posicionInicio)\n",
"\n",
"hora = html[posicionInicio:posicionFinal]\n",
"\n",
"print(hora)"
]
},
{
"cell_type": "markdown",
"id": "b4e3e14f-637b-40f2-b4d3-f4271586a0e8",
"metadata": {},
"source": [
"### Opción 2: Usando expresiones regulares\n",
"\n",
"Las expresiones regulares nos permiten mucha expresividad para localizar elementos dentro de una cadena. Sin embargo en ocasiones su uso puede ser complejo en un documento ```HTML```. Información interesante sobre las expresiones regulares:\n",
"\n",
"https://docs.python.org/3/library/re.html\n",
"\n",
"https://www.w3schools.com/python/python_regex.asp\n",
"\n",
"https://www.guru99.com/python-regular-expressions-complete-tutorial.html\n",
"\n",
"https://www.programiz.com/python-programming/regex\n",
"\n",
"Herramienta online para testear expresiones regulares (seleccionar lenguaje ```Python```):\n",
"\n",
"https://regex101.com/"
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "c89001ef-17fb-43e0-abf4-93fd17b4a594",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"10 de Marzo de 2020 - 10:10\n"
]
}
],
"source": [
"# Recuperemos la fecha y hora con expresiones regulares.\n",
"# Usaremos el módulo \"regex\":\n",
"# > conda install -c conda-forge regex\n",
"\n",
"import regex as re\n",
"\n",
"fecha = re.search(r'(.*)', html).group(1)\n",
"hora = re.search(r'(.*)', html).group(1)\n",
"\n",
"print(\"%s - %s\" % (fecha, hora))\n"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "dfa16370-2ee6-442f-94ef-5766aa82f283",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"10 de Marzo de 2020 a las\n",
" 10:10\n",
" \n",
" \n",
"
\n",
" \n",
"
Dato 1
33
\n",
"
Dato 2
666
\n",
"
Dato 3
7777
\n",
"
Dato 4
99
\n",
" \n",
" \n",
"
\n",
" \n",
"
La que viene a continuación es la tabla de datos de verdad.
\n",
" \n",
" \n",
"
\n",
" \n",
"
\n",
"
Comunidad
\n",
"
Contagiados
\n",
"
Fallecidos
\n",
"
Curados
\n",
"
\n",
" \n",
" \n",
" \n",
"
\n",
"
Andalucía
\n",
"
80
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Aragón
\n",
"
50
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Principado de Asturias
\n",
"
30
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Islas Baleares
\n",
"
10
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Canarias
\n",
"
35
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Cantabria
\n",
"
12
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Castilla y León
\n",
"
60
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Cataluña
\n",
"
110
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Galicia
\n",
"
20
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
C. Valenciana
\n",
"
62
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Extremadura
\n",
"
7
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Comunidad de Madrid
\n",
"
760
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Región de Murcia
\n",
"
7
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Comunidad Foral de Navarra
\n",
"
9
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
País Vasco
\n",
"
190
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
La Rioja
\n",
"
130
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Ceuta
\n",
"
0
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
"
Melilla
\n",
"
0
\n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
"
\n",
" \n",
"
Vaya faena nos han hecho los de la página\n"
]
}
],
"source": [
"# Cuidado con las busquedas \"exhaustivas\". \n",
"# Por ejemplo, podemos estar tentados a hacer una búsqueda de todas las fechas, por si hay más de una:\n",
"\n",
"fecha = re.search(r'(.*)', html, re.DOTALL).group(1)\n",
"\n",
"print(fecha)"
]
},
{
"cell_type": "markdown",
"id": "55595a0f-aac3-42ed-a234-55cedc431726",
"metadata": {},
"source": [
"### Opción 3: Usando un parser DOM\n",
"\n",
"_**D**ocument **O**bject **M**odel_ es una interfaz que permite manejar ficheros ```XML``` (y derivados, como ```HTML```) mediante objetos que se encuentran en memoria formando una estructura de árbol (replicando la estructura de las etiquetas). Las interfaces ```DOM``` son normalmente mucho más cómodas e intuitivas de usar que otras alternativas, aunque no funcionan bien para ficheros muy grandes. A continuación veremos unos pocos ejemplos de bibliotecas y herramientas que funcionan con este tipo de interfaz."
]
},
{
"cell_type": "markdown",
"id": "e54f24ad-ecfc-4924-9b5d-49ed34e12469",
"metadata": {},
"source": [
"#### MiniDOM\n",
"Ejemplo de uso de minidom (no es bueno para ```HTML``` que suele no estar bien formado, solo para ```XML```). Por eso vamos a usar un fichero ```RSS``` de noticias\n",
"\n",
"Documentacion de la biblioteca: https://docs.python.org/3.3/library/xml.dom.minidom.html"
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "9c5e2165-799c-4e8f-8496-00e6bc5016e8",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
" + Un periodista que viajó a Milán para cubrir el Valencia-Atalanta, positivo por coronavirus\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_noticia_normal.jpg\n",
" + Mapa de la expansión y claves para entender el coronavirus de Wuhan\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1582742390_miniatura_normal.png\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1583145456_portadilla_normal.png\n",
" + El turismo italiano se resiente; España mira expectante\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/f6f986136f7d70e226ac5f38df9fa88a_video_1800.mp4\n",
" + “La magnitud del problema del coronavirus no será diferente a una gripe”\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582744844_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582797813_noticia_normal.jpg\n",
" + Seis italianos encerrados por partida doble\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_noticia_normal.jpg\n",
" + Trump nombra al vicepresidente Pence a cargo de la crisis del coronavirus\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/202002279361360_1582792664_video_1800.mp4\n",
" + El coronavirus de Wuhan | Japón cerrará todos sus centros escolares hasta fin de marzo\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582773414_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582786463_noticia_normal.jpg\n",
" + El Gobierno salva el primer escollo de los Presupuestos gracias a ERC\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582797637_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582807919_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/bd6f863b8c606b83aa4a190909cad1d2_video_1800.mp4\n",
" + La mesa de diálogo se reunirá mensualmente y los acuerdos serán “en el marco de la seguridad jurídica”\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/9265b903ba4c44f3771b64a42fe06095_video_1800.mp4\n",
" + Así avanzan las encuestas en Galicia y País Vasco\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582705222_037590_1582705381_noticia_normal.jpg\n",
" + Ciudadanos pagaba un sueldo a un vocal de la Junta Electoral Central que resolvió recursos del partido\n",
" - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/20200227164217541_1582818245_video_1800.mp4\n",
" + 50 antiguos ministros y dirigentes europeos se pronuncian contra el plan de Trump para Palestina\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_noticia_normal.jpg\n",
" + Plácido Domingo anula sus representaciones en el Real antes de que el teatro las cancelara\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582794632_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582790092_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/86e4da93f1d390d4fd81392d9f903c91_video_1800.mp4\n",
" + Así gestionan nuestros vecinos europeos la expansión de Airbnb\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_noticia_normal.jpg\n",
" + La Fiscalía se querella contra una mujer por tuitear un vídeo falso de menores migrantes\n",
" - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_noticia_normal.jpg\n",
" + China desvela de qué está hecha la cara oculta de la Luna\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_noticia_normal.jpg\n",
" + Especial EL PAÍS en Arco | Muntadas: “La sociedad ha degradado las palabras”\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/actualidad/1582803771_531979_1582803808_portada_normal.jpg\n",
" + La historia de Duralex, una vajilla tan irrompible como nuestra nostalgia\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/portada/1582804176_187015_1582804289_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/verne/imagenes/2020/02/25/articulo/1582628993_071991_1582631824_noticia_normal.jpg\n",
" + ¿Por qué los mosquitos se ceban con nuestros tobillos?\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_noticia_normal.jpg\n",
" + Consumo da la razón a los clientes de Fnac que compraron un móvil 575 euros más barato por un error\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582799022_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582800034_noticia_normal.jpg\n",
" + Javier Bardem: “Hoy hay algún Hernán Cortés en el Congreso”\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749328_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749299_noticia_normal.jpg\n"
]
}
],
"source": [
"import xml.dom.minidom\n",
"\n",
"url = 'http://ep00.epimg.net/rss/elpais/portada.xml'\n",
"rss = requests.get(url).content.decode(\"UTF-8\")\n",
"\n",
"dom = xml.dom.minidom.parseString(rss)\n",
"\n",
"# Obtenemos todas las etiquetas \"item\"\n",
"items = dom.getElementsByTagName(\"item\")\n",
"\n",
"# Para cada etiqueta mostraremos el título de la noticia asociada y la url de la imagen asociada (si la tiene)\n",
"for item in items:\n",
" titulo = item.getElementsByTagName(\"title\")\n",
" \n",
" print(\" + \" + titulo[0].firstChild.nodeValue) # Detalle \"peliagudo\", el texto de dentro de una etiqueta \n",
" # es considerado un hijo. De hecho una etiqueta puede tener\n",
" # varios hijos de \"texto\". Ejemplo:\n",
" # \n",
" # Esto es texto\n",
" # \n",
" # Más texto\n",
" # \n",
" #\n",
" # El elemento \"etiquetaConTexto\" tiene tres hijos:\n",
" # + Hijo 1: de tipo texto: \"\\n Esto es texto\\n \"\n",
" # + Hijo 2: etiqueta \"etiquetaHijo\"\n",
" # + Hijo 3: de tipo texto: \"\\n Más text\\n \"\n",
"\n",
"# En este ejemplo, las urls de las imágenes asociadas a un item están en la etiqueta \"enclosure\", atributo \"url\":\n",
"\n",
" enclosures = item.getElementsByTagName(\"enclosure\")\n",
" \n",
" for e in enclosures:\n",
" print(\" - \" + e.getAttribute('url'))"
]
},
{
"cell_type": "markdown",
"id": "5ace3325-90a3-4f1b-8918-d05acd118a29",
"metadata": {},
"source": [
"#### ```DOM``` parser ```lxml.etree```\n",
"\n",
"Esta ```API``` es más sencilla y está más adaptada a ```Python```:\n",
"\n",
"+ Los elementos son listas (con lo que podemos acceder a sus hijos por índices)\n",
"+ Permite fácilmente modificar los elementos del ```DOM``` (lo mismo no es muy útil si estamos solo obteniendo información, pero vete tu a saber).\n",
"+ Los atributos de un elemento son un diccionario que está en elemento.attrib, con lo que acceder a ellos es muy \"natural\".\n",
"\n",
"\n",
"Tutorial: https://lxml.de/tutorial.html\n",
"\n",
"Para instalar el módulo:\n",
"\n",
"```\n",
"> conda install -c anaconda lxml\n",
"```"
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "7473dd94-8255-48c0-b189-093d851153d9",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
" + Un periodista que viajó a Milán para cubrir el Valencia-Atalanta, positivo por coronavirus\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_noticia_normal.jpg\n",
" + Mapa de la expansión y claves para entender el coronavirus de Wuhan\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1582742390_miniatura_normal.png\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1583145456_portadilla_normal.png\n",
" + El turismo italiano se resiente; España mira expectante\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/f6f986136f7d70e226ac5f38df9fa88a_video_1800.mp4\n",
" + “La magnitud del problema del coronavirus no será diferente a una gripe”\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582744844_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582797813_noticia_normal.jpg\n",
" + Seis italianos encerrados por partida doble\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_noticia_normal.jpg\n",
" + Trump nombra al vicepresidente Pence a cargo de la crisis del coronavirus\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/202002279361360_1582792664_video_1800.mp4\n",
" + El coronavirus de Wuhan | Japón cerrará todos sus centros escolares hasta fin de marzo\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582773414_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582786463_noticia_normal.jpg\n",
" + El Gobierno salva el primer escollo de los Presupuestos gracias a ERC\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582797637_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582807919_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/bd6f863b8c606b83aa4a190909cad1d2_video_1800.mp4\n",
" + La mesa de diálogo se reunirá mensualmente y los acuerdos serán “en el marco de la seguridad jurídica”\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/9265b903ba4c44f3771b64a42fe06095_video_1800.mp4\n",
" + Así avanzan las encuestas en Galicia y País Vasco\n",
" - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582705222_037590_1582705381_noticia_normal.jpg\n",
" + Ciudadanos pagaba un sueldo a un vocal de la Junta Electoral Central que resolvió recursos del partido\n",
" - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/20200227164217541_1582818245_video_1800.mp4\n",
" + 50 antiguos ministros y dirigentes europeos se pronuncian contra el plan de Trump para Palestina\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_noticia_normal.jpg\n",
" + Plácido Domingo anula sus representaciones en el Real antes de que el teatro las cancelara\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582794632_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582790092_noticia_normal.jpg\n",
" - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/86e4da93f1d390d4fd81392d9f903c91_video_1800.mp4\n",
" + Así gestionan nuestros vecinos europeos la expansión de Airbnb\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_noticia_normal.jpg\n",
" + La Fiscalía se querella contra una mujer por tuitear un vídeo falso de menores migrantes\n",
" - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_noticia_normal.jpg\n",
" + China desvela de qué está hecha la cara oculta de la Luna\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_noticia_normal.jpg\n",
" + Especial EL PAÍS en Arco | Muntadas: “La sociedad ha degradado las palabras”\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/actualidad/1582803771_531979_1582803808_portada_normal.jpg\n",
" + La historia de Duralex, una vajilla tan irrompible como nuestra nostalgia\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/portada/1582804176_187015_1582804289_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/verne/imagenes/2020/02/25/articulo/1582628993_071991_1582631824_noticia_normal.jpg\n",
" + ¿Por qué los mosquitos se ceban con nuestros tobillos?\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_noticia_normal.jpg\n",
" + Consumo da la razón a los clientes de Fnac que compraron un móvil 575 euros más barato por un error\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582799022_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582800034_noticia_normal.jpg\n",
" + Javier Bardem: “Hoy hay algún Hernán Cortés en el Congreso”\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749328_miniatura_normal.jpg\n",
" - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749299_noticia_normal.jpg\n"
]
}
],
"source": [
"# Repetimos el ejercicio anterior pero con el parser DOM lxml.etree\n",
"from lxml import etree\n",
"\n",
"tree = etree.parse(url)\n",
"\n",
"raiz = tree.getroot()\n",
"\n",
"# Iteramos por todos los descendientes de raiz que sean \"item\"\n",
"\n",
"for item in raiz.iter(\"item\"):\n",
" for hijo in item.iter(\"title\"):\n",
" print(\" + \" + hijo.text)\n",
" \n",
" for hijo in item.iter(\"enclosure\"):\n",
" print(\" - \" + hijo.attrib['url'])\n",
" "
]
},
{
"cell_type": "markdown",
"id": "865d1142-839e-463b-8619-07f6c5662f83",
"metadata": {},
"source": [
"### Opción 4: Usando ```XPath``` para localizar elementos fácilmente\n",
"\n",
"```XPath``` (*XML Path Language*) es un lenguaje que permite construir expresiones que recorren y procesan un documento ```XML```. Permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del ```XML```.\n",
"\n",
"+ https://es.wikipedia.org/wiki/XPath\n",
"+ https://www.w3schools.com/xml/xpath_syntax.asp"
]
},
{
"cell_type": "code",
"execution_count": 17,
"id": "1337f87d-8f8d-460f-ac49-41947cb310f3",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Replicaremos el ejemplo de la gráfica de casos de COVID-19 de manera mucho más simple\n",
"from lxml import etree\n",
"from io import StringIO, BytesIO\n",
"import matplotlib.pyplot as plt\n",
"\n",
"parserHTML = etree.HTMLParser()\n",
"\n",
"# Recuerda que html se inicializó mucho antes con el contenido de la página https://covid19.isciii.es/\n",
"tree = etree.parse(StringIO(html), parserHTML)\n",
"\n",
"tablas = tree.xpath('//table') # Nos devuelve todos los elementos \"table\" en cualquier sitio del documento\n",
" # En nuestro caso habrá devuelto 2 tablas\n",
"\n",
"# Nos interesa la segunda tabla de la página \n",
"tabla = tablas[1]\n",
"\n",
"comunidades = []\n",
"casos = []\n",
"\n",
"filas = tabla.xpath('tbody/tr') # Buscamos todos los
que estén dentro de
en la tabla\n",
"\n",
"for f in filas:\n",
" comunidades.append(f[0].text)\n",
" casos.append(int(f[1].text))\n",
" \n",
" \n",
"# Creamos el gráfico de barras\n",
"plt.bar(comunidades, casos)\n",
"# Rotation of the bars names\n",
"plt.xticks(rotation=90)\n",
"# Show graphic\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"id": "ad4a679b-058c-44a5-be34-7a8315adbd0f",
"metadata": {},
"source": [
"***\n",
"**Ejercicio D.1:** Obtener un campo del Sloan Digital Sky Survey (SDSS)\n",
"\n",
"El [SDSS](https://www.sdss.org/) tiene multitud de herramientas que permiten la obtención de datos e imágenes del cielo. Por ejemplo en https://dr12.sdss.org/fields/ podemos descargar campos concretos utilizando las coordenadas del cielo que nos interesan. Jugando un poco con el formulario de esa página \"descubrimos\" que podemos obtener el campo mediante el uso de la siguiente URL que tiene como parámetros la ascension recta (ra) y la declinación (dec):\n",
"\n",
"https://dr12.sdss.org/fields/raDec?ra=250.423475&dec=36.461319\n",
"\n",
"Programemos una función para descargar la imagen que corresponde a cualquier coordenada que nos interese:\n"
]
},
{
"cell_type": "code",
"execution_count": 18,
"id": "c7ee8236-5788-4481-b783-d189052d4d35",
"metadata": {},
"outputs": [],
"source": [
"# Tu código aquí\n",
" \n",
"# descargaSDSS(250.423475, 36.461319, \"m13.jpg\")\n",
"\n",
"# print(\"Descarga realizada\")"
]
},
{
"cell_type": "markdown",
"id": "91c52100-0d0d-4b81-8f3c-a41d832828d5",
"metadata": {},
"source": [
"***\n",
"**Ejecicio D.2:** Astronomy Picture of the Day (APOD) (desde la página oficial)\n",
"\n",
"Queremos hacer un script que descargue la imagen astronómica del día y la ponga de fondo de escritorio.\n",
"\n",
"La función de poner como fondo de escritorio depende del sistema operativo, por lo que habrá que descomentar la función ```setWallpaper``` que corresponda en el código de más abajo.\n",
"\n",
"Para conseguir nuestro objetivo tendremos que descargar la página del APOD y analizar el código ```HTML``` para dar con la URL de la imagen que queremos descargar."
]
},
{
"cell_type": "code",
"execution_count": 19,
"id": "15a657b1-e3dc-4c24-a304-ee9f2cd08c55",
"metadata": {},
"outputs": [],
"source": [
"#import dbus # conda install -c conda-forge dbus-python SOLO PARA Linux / KDE\n",
"\n",
"# Para Linux con KDE\n",
"#def setWallpaper(filepath):\n",
"# plugin = 'org.kde.image'\n",
"# jscript = \"\"\"\n",
"# var allDesktops = desktops();\n",
"# print (allDesktops);\n",
"# for (i=0;i\n",
"...\n",
" \n",
" \n",
" \t\t\t\t \t\t\t\t\t\t\t\t \t\t\t\t\t\t\t \t\t\t\t\t\t\n",
" \n",
"...\n",
"\n",
"```\n",
"Vemos que la petición que se realizar es con el método ```POST``` y que hay varios campos que se pueden rellenar: ```search``` (el campo de búsqueda en sí) y ```buscar``` (que es un radio button con dos opciones: ```msc``` o ```internet```). Además la petición del formulario se va a hacer a la misma página: ```action=\"iniciar.do\"```.\n"
]
},
{
"cell_type": "code",
"execution_count": 20,
"id": "c1ed95cf-a503-4067-8d00-3f99da6b30f8",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\t\n",
"\t\t\n",
"\t\t\tMinisterio de Sanidad - Buscador\n",
"\t\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\t\n",
"\t\t\n",
"\t\t\t\n",
"\t\t\n",
"\t\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t \n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t \n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t\t\n",
"\t \n",
"\t \n",
"\t\n",
"\t\t\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"
\n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
"\n",
"\n"
]
}
],
"source": [
"print(soup.prettify()) # Simplemente nos permite ver el documento mejor formatado (indentaciones, espacios en blanco...)\n"
]
},
{
"cell_type": "code",
"execution_count": 23,
"id": "3a935e9d-6910-43b6-a558-575f2c885ab9",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Enfermedad por nuevo coronavirus, COVID\n",
"-19]\n",
"https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/home.htm\n",
"[Ministerio de Sanidad - Profesionales - Mapa del estado de la expedición del Certificado COVID\n",
" Digital de la UE en Comunidades Autónomas]\n",
"https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/ccd/ccaa.htm\n",
"[Ministerio de Sanidad]\n",
"https://www.mscbs.gob.es/home.htm\n",
"[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Información para la ciudadanía - Coronavirus]\n",
"https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/ciudadania.htm\n",
"[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Viajes y COVID\n",
"-19]\n",
"https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/spth.htm\n",
"[Presentación de PowerPoint]\n",
"https://www.mscbs.gob.es/servCiudadanos/ayudas/pes/Actualizacion_PES_MDSA2030_2020.pdf\n",
"[Ministerio de Sanidad - Ministerio - Plan de Recuperación, Transformación y Resiliencia]\n",
"https://www.mscbs.gob.es/organizacion/recuTransResilencia/home.htm\n",
"[¿Sabes qué es la COVID\n",
" persistente o \"Long COVID\n",
"\"?]\n",
"https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/COVID_persistente.pdf\n",
"[Cómo identificar a tus contactos estrechos]\n",
"https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/COVID-19_Como_identificare_tus_contactos_estrechos.pdf\n",
"[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Salud pública - Prevención de la salud - Vacunaciones - Programa vacunación - Vacunas COVID\n",
"-19]\n",
"https://www.mscbs.gob.es/profesionales/saludPublica/prevPromocion/vacunaciones/covid19/vacunasCovid19.htm\n"
]
}
],
"source": [
"# Buscamos un
\n",
"\n",
"cuadroResultados = soup.find('div', {\"class\": \"capaCentroBuscador\"})\n",
"\n",
"# De ese cuadro extraemos todos los
(cada uno tiene un resultado de la búsqueda)\n",
"\n",
"resultados = cuadroResultados.find_all('li')\n",
"\n",
"for r in resultados:\n",
" # Dentro de cada