{ "cells": [ { "cell_type": "markdown", "id": "49ee5ba2-38d8-4bdc-af42-69de0cfe999f", "metadata": {}, "source": [ "# D: Web Scraping\n", "\n", "Para introducir este tema haremos uso de [una presentación (PDF)](./ficherosAuxiliares/webScrapingAstronomia.pdf).\n", "\n", "[![](./ficherosAuxiliares/portadaWebScraping.jpg)](./ficherosAuxiliares/webScrapingAstronomia.pdf)" ] }, { "cell_type": "markdown", "id": "317c5c04-3c84-42e1-bd81-2cdca7d21042", "metadata": {}, "source": [ "## Scraping Básico\n", "### Descargando páginas web\n", "\n", "El primer paso antes de hacer cualquier tipo de scraping es decidir que página queremos descargar y analizar. En nuestro caso vamos a obtener datos de la página del Instituto Carlos III sobre la evolución del COVID-19:\n", "\n", "https://covid19.isciii.es/ - La reemplazamos por https://zerjio.com/temp/covid19.html\n", "\n", "Lo primero que deberíamos hacer sería visualizar la página en nuestro navegador favorito (¿Firefox?) para comprobar el aspecto que tiene y la información que podemos descargar.\n", "\n", "A continuación tendremos que emular el comportamiento del navegador para obtener la página: tendremos que hacer una petición HTTP para recuperar la página web. Lo haremos usando la biblioteca \"requests\".\n", "\n", "Información y ejemplos sobre dicho módulo: https://www.w3schools.com/python/module_requests.asp" ] }, { "cell_type": "code", "execution_count": 1, "id": "6de1e7fa-7552-463b-9b79-0b1ba5b11aa2", "metadata": {}, "outputs": [], "source": [ "import requests\n", "from pprint import pprint\n", "\n", "#respuesta = requests.get(\"https://covid19.isciii.es/\") # Utilizamo el metodo GET del protocolor HTTP\n", "respuesta = requests.get(\"https://zerjio.com/temp/covid19.html\") " ] }, { "cell_type": "code", "execution_count": 2, "id": "5d4ed4e5-1ad7-4788-a830-5eec835a4eca", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{'_content': b' \\n \\n \\n '\n", " b' \\n\\n \\n P\\xc3\\xa1gina del COVID 19 para solv'\n", " b'entar problema en el curso de Python, m\\xc3\\xb3dulo de web-scr'\n", " b'apping\\n \\n \\n \\n

Esta p\\xc3\\xa1gina \"simula\" una p'\n", " b'\\xc3\\xa1gina que hab\\xc3\\xada en el direcci\\xc3\\xb3n https://c'\n", " b'ovid19.isciii.es/ . Aunque no se parece est\\xc3\\xa9ticamente t'\n", " b'iene los mismos elementos para que los ejemplos funcionen igual.'\n", " b'

\\n \\n

\\xc3\\x9altima actualizaci\\xc3\\xb3n 10 de Marzo de 2020 a las\\n 10:10

\\n \\n \\n \\n \\n \\n '\n", " b'\\n \\n '\n", " b'\\n \\n \\n '\n", " b'
Dato 1<'\n", " b'/td>33
Dato 2666
Dato 37777
Dato 499
\\n \\n

La que viene a continuaci\\xc3\\xb3n '\n", " b'es la tabla de datos de verdad.

\\n \\n \\n \\n \\n \\n \\n '\n", " b'\\n \\n '\n", " b' \\n \\n \\n \\n '\n", " b' \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n '\n", " b'\\n \\n \\n \\n \\n \\n 30\\n \\n \\n <'\n", " b'/tr>\\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n '\n", " b' \\n \\n \\n \\n '\n", " b' \\n \\n '\n", " b'\\n \\n \\n \\n '\n", " b' \\n \\n '\n", " b'\\n \\n \\n '\n", " b' \\n \\n \\n \\n \\n \\n \\n \\n <'\n", " b'tr>\\n \\n \\n '\n", " b' \\n \\n \\n \\n'\n", " b' \\n \\n <'\n", " b'td>62\\n \\n \\n '\n", " b' \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n '\n", " b' \\n \\n <'\n", " b'td>7\\n \\n \\n '\n", " b'\\n \\n \\n \\n \\n \\n '\n", " b' \\n \\n \\n \\n '\n", " b' \\n \\n '\n", " b' \\n \\n \\n '\n", " b' \\n \\n \\n \\n \\n \\n <'\n", " b'/tr>\\n \\n \\n \\n '\n", " b' \\n \\n \\n '\n", " b' \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n

Vaya faena nos han hecho los de la p\\xc3\\xa1gina...

\\n \\n \\n \\n \\n \\n \\n',\n", " '_content_consumed': True,\n", " '_next': None,\n", " 'connection': ,\n", " 'cookies': ,\n", " 'elapsed': datetime.timedelta(microseconds=188306),\n", " 'encoding': 'ISO-8859-1',\n", " 'headers': {'Date': 'Thu, 20 Apr 2023 10:29:30 GMT', 'Server': 'Apache/2.4.18 (Ubuntu)', 'Last-Modified': 'Mon, 11 May 2020 10:04:22 GMT', 'ETag': '\"1079-5a55c78929580-gzip\"', 'Accept-Ranges': 'bytes', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '1086', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'text/html'},\n", " 'history': [],\n", " 'raw': ,\n", " 'reason': 'OK',\n", " 'request': ,\n", " 'status_code': 200,\n", " 'url': 'https://zerjio.com/temp/covid19.html'}\n" ] } ], "source": [ "# Hemos obtenido un objeto de tipo \"Response\", donde estará toda la información que hemos obtenido de la página\n", "# https://www.w3schools.com/python/ref_requests_response.asp\n", "\n", "pprint(vars(respuesta)) # Podemos inspeccionar el objeto y ver que campos nos interesan. Particularmente:\n" ] }, { "cell_type": "code", "execution_count": 3, "id": "a9d0cfa2-10b3-4648-9e76-53b058ab2e3b", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "200\n", "OK\n", "0:00:00.188306\n", "ISO-8859-1\n" ] } ], "source": [ "print(respuesta.status_code) # El código de estado: 200 Es el código de que todo ha ido bien. \n", " # Lista de códigos de estados posibles: https://www.restapitutorial.com/httpstatuscodes.html\n", " \n", "print(respuesta.reason) # Una descripción textual del código de respuesta \n", "\n", "\n", "print(respuesta.elapsed) # Tiempo que se ha tardado desde que se hizo la petición hasta que se obtuvo la respuesta\n", "\n", "\n", "print(respuesta.encoding) # La codificación del documento (juego de caracteres usado)\n" ] }, { "cell_type": "code", "execution_count": 4, "id": "feb9cbcb-a76b-438d-8307-30210d0fe76d", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "b' \\n \\n \\n \\n\\n \\n P\\xc3\\xa1gina del COVID 19 para solventar problema en el curso de Python, m\\xc3\\xb3dulo de web-scrapping\\n \\n \\n \\n

Esta p\\xc3\\xa1gina \"simula\" una p\\xc3\\xa1gina que hab\\xc3\\xada en el direcci\\xc3\\xb3n https://covid19.isciii.es/ . Aunque no se parece est\\xc3\\xa9ticamente tiene los mismos elementos para que los ejemplos funcionen igual.

\\n \\n

\\xc3\\x9altima actualizaci\\xc3\\xb3n 10 de Marzo de 2020 a las\\n 10:10

\\n \\n \\n
ComunidadContagiadosFallecidosCurados
Andaluc\\xc3\\xada\\n 80
'\n", " b'Arag\\xc3\\xb3n50
Principado de Asturias
Islas Baleares\\n 10
'\n", " b'Canarias35
Cantabria12
Castilla y Le\\xc3\\xb3n60
Catalu'\n", " b'\\xc3\\xb1a110\\n
Galicia20
C. Valenciana
Extremadura\\n 7'\n", " b'
Co'\n", " b'munidad de Madrid760
Regi\\xc3\\xb3n de Murcia
Comunidad Foral '\n", " b'de Navarra9
Pa\\xc3\\xads Vasco190
La Rioja'\n", " b'130
Ceuta0
Melilla\\n 0
\\n \\n \\n \\n \\n \\n \\n \\n
Dato 133
Dato 2666
Dato 37777
Dato 499
\\n \\n

La que viene a continuaci\\xc3\\xb3n es la tabla de datos de verdad.

\\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n \\n
ComunidadContagiadosFallecidosCurados
Andaluc\\xc3\\xada80
Arag\\xc3\\xb3n50
Principado de Asturias30
Islas Baleares10
Canarias35
Cantabria12
Castilla y Le\\xc3\\xb3n60
Catalu\\xc3\\xb1a110
Galicia20
C. Valenciana62
Extremadura7
Comunidad de Madrid760
Regi\\xc3\\xb3n de Murcia7
Comunidad Foral de Navarra9
Pa\\xc3\\xads Vasco190
La Rioja130
Ceuta0
Melilla0
\\n \\n

Vaya faena nos han hecho los de la p\\xc3\\xa1gina...

\\n \\n \\n \\n \\n \\n \\n'\n" ] } ], "source": [ "print(respuesta.content) # Y lo que probablemente nos interesa más: el CONTENIDO de la página.\n", " # El \"problema\" es que es una cadena \"binaria\"." ] }, { "cell_type": "code", "execution_count": 5, "id": "a7fb1f60-f2fe-4775-a9a1-208bc1ac0008", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " \n", " \n", " \n", " \n", "\n", " \n", " Página del COVID 19 para solventar problema en el curso de Python, módulo de web-scrapping\n", " \n", " \n", " \n", "

Esta página \"simula\" una página que había en el dirección https://covid19.isciii.es/ . Aunque no se parece estéticamente tiene los mismos elementos para que los ejemplos funcionen igual.

\n", " \n", "

Última actualización 10 de Marzo de 2020 a las\n", " 10:10

\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Dato 133
Dato 2666
Dato 37777
Dato 499
\n", " \n", "

La que viene a continuación es la tabla de datos de verdad.

\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ComunidadContagiadosFallecidosCurados
Andalucía80
Aragón50
Principado de Asturias30
Islas Baleares10
Canarias35
Cantabria12
Castilla y León60
Cataluña110
Galicia20
C. Valenciana62
Extremadura7
Comunidad de Madrid760
Región de Murcia7
Comunidad Foral de Navarra9
País Vasco190
La Rioja130
Ceuta0
Melilla0
\n", " \n", "

Vaya faena nos han hecho los de la página...

\n", " \n", " \n", " \n", " \n", " \n", " \n", "\n" ] } ], "source": [ "html = respuesta.content.decode(\"UTF-8\") # Lo podemos codificar a una cadena \"normal\"\n", "\n", "print(html)" ] }, { "cell_type": "code", "execution_count": 6, "id": "ae8dc804-6631-4fac-ae6b-d4aefa8f90a0", "metadata": {}, "outputs": [], "source": [ "# Podemos guardar el código HTML a un fichero local para poder inspeccionarlo con más tranquilidad\n", "\n", "text_file = open(\"salidas/covid-19.html\", \"w\")\n", "text_file.write(html)\n", "text_file.close()" ] }, { "cell_type": "code", "execution_count": 7, "id": "f26646fc-95ad-4f58-992a-dbbe5f0bee3e", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Línea 1: \n", "Línea 2: \n", "Línea 3: \n", "Línea 4: \n", "Línea 5: \n", "Línea 6: \n", "Línea 21: Página del COVID 19 para solventar problema en el curso de Python, módulo de web-scrapping\n", "Línea 22: \n", "Línea 23: \n", "Línea 24: \n", "Línea 25:

Esta página \"simula\" una página que había en el dirección https://covid19.isciii.es/ . Aunque no se parece estéticamente tiene los mismos elementos para que los ejemplos funcionen igual.

\n", "Línea 26: \n", "Línea 27:

Última actualización 10 de Marzo de 2020 a las\n", "Línea 28: 10:10

\n", "Línea 29: \n", "Línea 30: \n", "Línea 31: \n", "Línea 32: \n", "Línea 33: \n", "Línea 34: \n", "Línea 35: \n", "Línea 36: \n", "Línea 37: \n", "Línea 38: \n", "Línea 39:
Dato 133
Dato 2666
Dato 37777
Dato 499
\n", "Línea 40: \n", "Línea 41:

La que viene a continuación es la tabla de datos de verdad.

\n", "Línea 42: \n", "Línea 43: \n", "Línea 44: \n", "Línea 45: \n", "Línea 46: \n", "Línea 47: \n", "Línea 48: \n", "Línea 49: \n", "Línea 50: \n", "Línea 51: \n", "Línea 52: \n", "Línea 53: \n", "Línea 54: \n", "Línea 55: \n", "Línea 56: \n", "Línea 57: \n", "Línea 58: \n", "Línea 59: \n", "Línea 60: \n", "Línea 61: \n", "Línea 62: \n", "Línea 63: \n", "Línea 64: \n", "Línea 65: \n", "Línea 66: \n", "Línea 67: \n", "Línea 68: \n", "Línea 69: \n", "Línea 70: \n", "Línea 71: \n", "Línea 72: \n", "Línea 73: \n", "Línea 74: \n", "Línea 75: \n", "Línea 76: \n", "Línea 77: \n", "Línea 78: \n", "Línea 79: \n", "Línea 80: \n", "Línea 81: \n", "Línea 82: \n", "Línea 83: \n", "Línea 84: \n", "Línea 85: \n", "Línea 86: \n", "Línea 87: \n", "Línea 88: \n", "Línea 89: \n", "Línea 90: \n", "Línea 91: \n", "Línea 92: \n", "Línea 93: \n", "Línea 94: \n", "Línea 95: \n", "Línea 96: \n", "Línea 97: \n", "Línea 98: \n", "Línea 99: \n", "Línea 100: \n", "Línea 101: \n", "Línea 102: \n", "Línea 103: \n", "Línea 104: \n", "Línea 105: \n", "Línea 106: \n", "Línea 107: \n", "Línea 108: \n", "Línea 109: \n", "Línea 110: \n", "Línea 111: \n", "Línea 112: \n", "Línea 113: \n", "Línea 114: \n", "Línea 115: \n", "Línea 116: \n", "Línea 117: \n", "Línea 118: \n", "Línea 119: \n", "Línea 120: \n", "Línea 121: \n", "Línea 122: \n", "Línea 123: \n", "Línea 124: \n", "Línea 125: \n", "Línea 126: \n", "Línea 127: \n", "Línea 128: \n", "Línea 129: \n", "Línea 130: \n", "Línea 131: \n", "Línea 132: \n", "Línea 133: \n", "Línea 134: \n", "Línea 135: \n", "Línea 136: \n", "Línea 137: \n", "Línea 138: \n", "Línea 139: \n", "Línea 140: \n", "Línea 141: \n", "Línea 142: \n", "Línea 143: \n", "Línea 144: \n", "Línea 145: \n", "Línea 146: \n", "Línea 147: \n", "Línea 148: \n", "Línea 149: \n", "Línea 150: \n", "Línea 151: \n", "Línea 152: \n", "Línea 153: \n", "Línea 154: \n", "Línea 155: \n", "Línea 156: \n", "Línea 157: \n", "Línea 158: \n", "Línea 159: \n", "Línea 160: \n", "Línea 161: \n", "Línea 162: \n", "Línea 163: \n", "Línea 164: \n", "Línea 165: \n", "Línea 166: \n", "Línea 167: \n", "Línea 168: \n", "Línea 169: \n", "Línea 170: \n", "Línea 171: \n", "Línea 172: \n", "Línea 173: \n", "Línea 174: \n", "Línea 175: \n", "Línea 176: \n", "Línea 177: \n", "Línea 178: \n", "Línea 179: \n", "Línea 180: \n", "Línea 181: \n", "Línea 182:
ComunidadContagiadosFallecidosCurados
Andalucía80
Aragón50
Principado de Asturias30
Islas Baleares10
Canarias35
Cantabria12
Castilla y León60
Cataluña110
Galicia20
C. Valenciana62
Extremadura7
Comunidad de Madrid760
Región de Murcia7
Comunidad Foral de Navarra9
País Vasco190
La Rioja130
Ceuta0
Melilla0
\n", "Línea 183: \n", "Línea 184:

Vaya faena nos han hecho los de la página...

\n", "Línea 185: \n", "Línea 186: \n", "Línea 187: \n", "Línea 188: \n", "Línea 189: \n", "Línea 190: \n" ] } ], "source": [ "# También puede ser interesante usar el iterador que te permite recorrer el contenido obtenido línea a línea\n", "for num, linea in enumerate(respuesta.iter_lines(), start=1):\n", " print(\"Línea %d: %s\" % (num, linea.decode(\"UTF-8\")) )" ] }, { "cell_type": "markdown", "id": "26ed47a0-ed53-4bfd-ae99-bc9bc0746800", "metadata": {}, "source": [ "### Bajando ficheros binarios\n", "\n", "Normalmente las páginas web están escritas en ```HTML``` que es tipo de fichero de texto (string) fácil de manejar. Sin embargo en ocasiones querremos bajar ficheros que estén en otros formatos que no sean texto (binarios), como son los formatos ```PDF```, ```EXE```, ```ZIP```, ```JPG```.\n", "\n", "En una sección anterior del curso se planteó un script para bajar el BOP de Granada y luego sacar información del ```PDF```. A continuación vamos a \"refinar\" el script que se creó simplificando y aprovechando alguna información que nos ofrece el protocolo ```HTTP```.\n" ] }, { "cell_type": "code", "execution_count": 8, "id": "339a6d34-fbff-4278-a1d6-a07cac4b3fcf", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2023-04-20 12:29:30.915929\n", "20/04/2023\n", "https://bop2.dipgra.es/opencms/opencms/portal/DescargaPDFBoletin?fecha=20/04/2023\n" ] } ], "source": [ "import datetime\n", "import requests\n", "\n", "baseURL=\"https://bop2.dipgra.es/opencms/opencms/portal/DescargaPDFBoletin?fecha=\"\n", "\n", "fecha = datetime.datetime.now()\n", "#fecha = datetime.datetime(2020, 5, 6) # Año, mes, día, para una fecha que no sea hoy\n", "print(fecha)\n", "\n", "fechaFormateada = fecha.strftime(\"%d/%m/%Y\") # Formateamos la fecha, https://www.programiz.com/python-programming/datetime/strftime\n", "print(fechaFormateada)\n", "\n", "url = baseURL + fechaFormateada\n", "print(url)" ] }, { "cell_type": "code", "execution_count": 9, "id": "245f7b13-06fc-4839-99e2-33eb5d1fe353", "metadata": {}, "outputs": [], "source": [ "respuesta = requests.get(url) # hacemos la petición y se descargan los contenidos" ] }, { "cell_type": "code", "execution_count": 10, "id": "6e4f30b9-1e9c-4167-aad6-a9a67c52f6d7", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cabeceras recibidas: {'Date': 'Thu, 20 Apr 2023 10:25:00 GMT', 'Content-disposition': 'attachment;filename=Boletin_20230420.pdf', 'Content-Type': 'application/pdf', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Transfer-Encoding': 'chunked'}\n", "\n", "Tipo de información descargada: application/pdf\n", "\n", "Tamaño descargado: 563625 bytes\n", "\n", "Campo que nos sugiere el nombre del fichero descargado: attachment;filename=Boletin_20230420.pdf\n", "\n", "Fichero salidas/Boletin_20230420.pdf grabado en disco.\n", "\n" ] } ], "source": [ "print(\"Cabeceras recibidas: \" + str(respuesta.headers) + \"\\n\") # Inspeccionamos las cabeceras que hemos recibido\n", "\n", "# Nos interesa ver que \"Content-Type\" ya nos indica que es un fichero que puede abrirse con una aplicación \n", "# que maneje PDFs\n", "# Además en alguna ocasión podemos recibir que el tamaño del contenido descargado: \"Content-Length\"\n", "\n", "print(\"Tipo de información descargada: \" + respuesta.headers['Content-Type'] + \"\\n\")\n", "\n", "tamanioDescargado = 0\n", "if \"Content-Length\" in respuesta.headers:\n", " tamanioDescargado = int(respuesta.headers['Content-Length'])\n", "else:\n", " tamanioDescargado = len(respuesta.content) # Si no nos lo dice la cabecera podemos mirar el tamaño del\n", " # contenido descargado\n", " \n", " \n", "print(\"Tamaño descargado: \" + str(tamanioDescargado) + \" bytes\\n\")\n", "\n", "# Además nos damos cuenta que la aplicación web nos sugiere un nombre para el fichero que vamos a descargar:\n", "\n", "print(\"Campo que nos sugiere el nombre del fichero descargado: \" + respuesta.headers['Content-disposition'] + \"\\n\")\n", "\n", "# En la aplicación web que sirve los BOP de Granada siempre devuelve una respuesta válida (código 200)\n", "# aunque no exista el PDF de la fecha pedida. En una aplicación bien hecha devolvería un codigo de error distinto\n", "# (NOT FOUND o similar). En cualquier caso nosotros nos hemos dado cuenta que si el contenido devuelto es 0 bytes\n", "# es que ese día no hay BOP.\n", "\n", "if tamanioDescargado == 0:\n", " print(\"En la fecha indicada no hay BOP (o es una fecha incorrecta).\\n\")\n", "else:\n", " \n", " filename = \"salidas/\" + respuesta.headers['Content-disposition'][20:] # Saco el nombre del fichero truncando la cadena\n", " \n", " myfile = open(filename,'wb')\n", " myfile.write(respuesta.content)\n", " myfile.close()\n", " \n", " print(\"Fichero \" + filename + \" grabado en disco.\\n\")" ] }, { "cell_type": "markdown", "id": "1413256a-6905-404f-a9e8-9c8b69d85998", "metadata": {}, "source": [ "### Solucionando un problema común: requests.exceptions.SSLError \n", "\n", "Al intentar hacer scraping a algunas páginas web puede que nos salte una excepción del tipo ```requests.exceptions.SSLError```. Ese problema viene derivado de una mala configuración del servidor web (no es problema nuestro): Básicamente no tiene actualizado el certificado digital necesario para establecer una conexión segura. En realidad la explicación es más técnica, pero basta con saber eso para reconocer el error. La solución es \"fácil\": solo tenemos que decirle al módulo ```requests``` que no haga comprobaciones del certificado digital. Con eso podremos proceder con la descarga, aunque en teoría es \"peligroso\", porque no podemos tener certeza de que el contenido que bajemos sea legítimo (podrían haber crackeado la web que consultamos, cosa no muy común). Para conseguir solucionar esto solo hay que añadir el parámetro ```verify=False``` en nuestra llamada ```requests.get(...)```. Eso sí, cuando desactivemos la comprobación de certificados nos aparecerá un ```Warning``` avisándonos de los \"peligros\" de no poder comprobarlos. Por ejemplo:" ] }, { "cell_type": "code", "execution_count": 11, "id": "faee6c23-e99d-4455-9764-7d0a6a7bd5f9", "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/zerjillo/anaconda3/envs/cursoAstronomia2/lib/python3.8/site-packages/urllib3/connectionpool.py:1045: InsecureRequestWarning: Unverified HTTPS request is being made to host 'zerjio.com'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/1.26.x/advanced-usage.html#ssl-warnings\n", " warnings.warn(\n" ] } ], "source": [ "respuesta = requests.get(\"https://zerjio.com/temp/covid19.html\", verify=False) " ] }, { "cell_type": "markdown", "id": "7defbdc7-953e-4584-9971-63d4076aea11", "metadata": {}, "source": [ "## Parseando páginas web: trabajar con el ```HTML```\n", "\n", "Dentro de la cadena del código HTML podemos buscar la información que nos interese recuperar. Podemos hacerlo de múltiples maneras. Empezaremos con algunas muy básicas y rudimentarias e iremos poco a poco mejorando la manera de acceder.\n", "\n", "### Opción 1: Buscaremos a lo \"bestia\" con las funciones de búsqueda de cadenas básicas: ```str.find()```\n", "\n", "https://www.journaldev.com/23666/python-string-find\n", "\n", "Revisando el código de la página encontramos la fecha de actualización de la misma:\n", "\n", " ...\n", " [Actualizado a 10 de Marzo de 2020 a las 10:10 horas]
Basada en la notificación diaria de casos agregados de COVID-19 al Ministerio de Sanidad\n", " ...\n", " \n", "Y nos percatamos que la fecha en formato texto va encerrada entre: `````` y ``````. Busquémosla\n" ] }, { "cell_type": "code", "execution_count": 12, "id": "f47d7547-4a0e-42fe-a3be-d09a2a1b32e8", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "10 de Marzo de 2020\n", "10:10\n" ] } ], "source": [ "import requests # Estas lineas las hemos copiado del anterior Notebook\n", "respuesta = requests.get(\"https://zerjio.com/temp/covid19.html\") # Esta página reemplaza la anterior\n", "html = respuesta.content.decode(\"UTF-8\") # https://covid19.isciii.es/\n", "\n", "\n", "cadenaBuscada = ''\n", "posicionInicio = html.find(cadenaBuscada) + len(cadenaBuscada)\n", "posicionFinal = html.find('', posicionInicio) # El segundo parámetro de find() es la posición desde\n", " # donde empezar a buscar el primer parámetro\n", "\n", "fecha = html[posicionInicio:posicionFinal]\n", "\n", "print(fecha)\n", "\n", "# Vamos a hacer lo mismo con la hora\n", "\n", "cadenaBuscada = ''\n", "posicionInicio = html.find(cadenaBuscada) + len(cadenaBuscada)\n", "posicionFinal = html.find('', posicionInicio)\n", "\n", "hora = html[posicionInicio:posicionFinal]\n", "\n", "print(hora)" ] }, { "cell_type": "markdown", "id": "b4e3e14f-637b-40f2-b4d3-f4271586a0e8", "metadata": {}, "source": [ "### Opción 2: Usando expresiones regulares\n", "\n", "Las expresiones regulares nos permiten mucha expresividad para localizar elementos dentro de una cadena. Sin embargo en ocasiones su uso puede ser complejo en un documento ```HTML```. Información interesante sobre las expresiones regulares:\n", "\n", "https://docs.python.org/3/library/re.html\n", "\n", "https://www.w3schools.com/python/python_regex.asp\n", "\n", "https://www.guru99.com/python-regular-expressions-complete-tutorial.html\n", "\n", "https://www.programiz.com/python-programming/regex\n", "\n", "Herramienta online para testear expresiones regulares (seleccionar lenguaje ```Python```):\n", "\n", "https://regex101.com/" ] }, { "cell_type": "code", "execution_count": 13, "id": "c89001ef-17fb-43e0-abf4-93fd17b4a594", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "10 de Marzo de 2020 - 10:10\n" ] } ], "source": [ "# Recuperemos la fecha y hora con expresiones regulares.\n", "# Usaremos el módulo \"regex\":\n", "# > conda install -c conda-forge regex\n", "\n", "import regex as re\n", "\n", "fecha = re.search(r'(.*)', html).group(1)\n", "hora = re.search(r'(.*)', html).group(1)\n", "\n", "print(\"%s - %s\" % (fecha, hora))\n" ] }, { "cell_type": "code", "execution_count": 14, "id": "dfa16370-2ee6-442f-94ef-5766aa82f283", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "10 de Marzo de 2020
a las\n", " 10:10

\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Dato 133
Dato 2666
Dato 37777
Dato 499
\n", " \n", "

La que viene a continuación es la tabla de datos de verdad.

\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ComunidadContagiadosFallecidosCurados
Andalucía80
Aragón50
Principado de Asturias30
Islas Baleares10
Canarias35
Cantabria12
Castilla y León60
Cataluña110
Galicia20
C. Valenciana62
Extremadura7
Comunidad de Madrid760
Región de Murcia7
Comunidad Foral de Navarra9
País Vasco190
La Rioja130
Ceuta0
Melilla0
\n", " \n", "

Vaya faena nos han hecho los de la página\n" ] } ], "source": [ "# Cuidado con las busquedas \"exhaustivas\". \n", "# Por ejemplo, podemos estar tentados a hacer una búsqueda de todas las fechas, por si hay más de una:\n", "\n", "fecha = re.search(r'(.*)', html, re.DOTALL).group(1)\n", "\n", "print(fecha)" ] }, { "cell_type": "markdown", "id": "55595a0f-aac3-42ed-a234-55cedc431726", "metadata": {}, "source": [ "### Opción 3: Usando un parser DOM\n", "\n", "_**D**ocument **O**bject **M**odel_ es una interfaz que permite manejar ficheros ```XML``` (y derivados, como ```HTML```) mediante objetos que se encuentran en memoria formando una estructura de árbol (replicando la estructura de las etiquetas). Las interfaces ```DOM``` son normalmente mucho más cómodas e intuitivas de usar que otras alternativas, aunque no funcionan bien para ficheros muy grandes. A continuación veremos unos pocos ejemplos de bibliotecas y herramientas que funcionan con este tipo de interfaz." ] }, { "cell_type": "markdown", "id": "e54f24ad-ecfc-4924-9b5d-49ed34e12469", "metadata": {}, "source": [ "#### MiniDOM\n", "Ejemplo de uso de minidom (no es bueno para ```HTML``` que suele no estar bien formado, solo para ```XML```). Por eso vamos a usar un fichero ```RSS``` de noticias\n", "\n", "Documentacion de la biblioteca: https://docs.python.org/3.3/library/xml.dom.minidom.html" ] }, { "cell_type": "code", "execution_count": 15, "id": "9c5e2165-799c-4e8f-8496-00e6bc5016e8", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " + Un periodista que viajó a Milán para cubrir el Valencia-Atalanta, positivo por coronavirus\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_noticia_normal.jpg\n", " + Mapa de la expansión y claves para entender el coronavirus de Wuhan\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1582742390_miniatura_normal.png\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1583145456_portadilla_normal.png\n", " + El turismo italiano se resiente; España mira expectante\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/f6f986136f7d70e226ac5f38df9fa88a_video_1800.mp4\n", " + “La magnitud del problema del coronavirus no será diferente a una gripe”\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582744844_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582797813_noticia_normal.jpg\n", " + Seis italianos encerrados por partida doble\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_noticia_normal.jpg\n", " + Trump nombra al vicepresidente Pence a cargo de la crisis del coronavirus\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/202002279361360_1582792664_video_1800.mp4\n", " + El coronavirus de Wuhan | Japón cerrará todos sus centros escolares hasta fin de marzo\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582773414_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582786463_noticia_normal.jpg\n", " + El Gobierno salva el primer escollo de los Presupuestos gracias a ERC\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582797637_miniatura_normal.jpg\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582807919_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/bd6f863b8c606b83aa4a190909cad1d2_video_1800.mp4\n", " + La mesa de diálogo se reunirá mensualmente y los acuerdos serán “en el marco de la seguridad jurídica”\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_miniatura_normal.jpg\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/9265b903ba4c44f3771b64a42fe06095_video_1800.mp4\n", " + Así avanzan las encuestas en Galicia y País Vasco\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582705222_037590_1582705381_noticia_normal.jpg\n", " + Ciudadanos pagaba un sueldo a un vocal de la Junta Electoral Central que resolvió recursos del partido\n", " - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_miniatura_normal.jpg\n", " - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/20200227164217541_1582818245_video_1800.mp4\n", " + 50 antiguos ministros y dirigentes europeos se pronuncian contra el plan de Trump para Palestina\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_miniatura_normal.jpg\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_noticia_normal.jpg\n", " + Plácido Domingo anula sus representaciones en el Real antes de que el teatro las cancelara\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582794632_miniatura_normal.jpg\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582790092_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/86e4da93f1d390d4fd81392d9f903c91_video_1800.mp4\n", " + Así gestionan nuestros vecinos europeos la expansión de Airbnb\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_miniatura_normal.jpg\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_noticia_normal.jpg\n", " + La Fiscalía se querella contra una mujer por tuitear un vídeo falso de menores migrantes\n", " - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_miniatura_normal.jpg\n", " - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_noticia_normal.jpg\n", " + China desvela de qué está hecha la cara oculta de la Luna\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_miniatura_normal.jpg\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_noticia_normal.jpg\n", " + Especial EL PAÍS en Arco | Muntadas: “La sociedad ha degradado las palabras”\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/actualidad/1582803771_531979_1582803808_portada_normal.jpg\n", " + La historia de Duralex, una vajilla tan irrompible como nuestra nostalgia\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/portada/1582804176_187015_1582804289_miniatura_normal.jpg\n", " - https://ep00.epimg.net/verne/imagenes/2020/02/25/articulo/1582628993_071991_1582631824_noticia_normal.jpg\n", " + ¿Por qué los mosquitos se ceban con nuestros tobillos?\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_miniatura_normal.jpg\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_noticia_normal.jpg\n", " + Consumo da la razón a los clientes de Fnac que compraron un móvil 575 euros más barato por un error\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582799022_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582800034_noticia_normal.jpg\n", " + Javier Bardem: “Hoy hay algún Hernán Cortés en el Congreso”\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749328_miniatura_normal.jpg\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749299_noticia_normal.jpg\n" ] } ], "source": [ "import xml.dom.minidom\n", "\n", "url = 'http://ep00.epimg.net/rss/elpais/portada.xml'\n", "rss = requests.get(url).content.decode(\"UTF-8\")\n", "\n", "dom = xml.dom.minidom.parseString(rss)\n", "\n", "# Obtenemos todas las etiquetas \"item\"\n", "items = dom.getElementsByTagName(\"item\")\n", "\n", "# Para cada etiqueta mostraremos el título de la noticia asociada y la url de la imagen asociada (si la tiene)\n", "for item in items:\n", " titulo = item.getElementsByTagName(\"title\")\n", " \n", " print(\" + \" + titulo[0].firstChild.nodeValue) # Detalle \"peliagudo\", el texto de dentro de una etiqueta \n", " # es considerado un hijo. De hecho una etiqueta puede tener\n", " # varios hijos de \"texto\". Ejemplo:\n", " # \n", " # Esto es texto\n", " # \n", " # Más texto\n", " # \n", " #\n", " # El elemento \"etiquetaConTexto\" tiene tres hijos:\n", " # + Hijo 1: de tipo texto: \"\\n Esto es texto\\n \"\n", " # + Hijo 2: etiqueta \"etiquetaHijo\"\n", " # + Hijo 3: de tipo texto: \"\\n Más text\\n \"\n", "\n", "# En este ejemplo, las urls de las imágenes asociadas a un item están en la etiqueta \"enclosure\", atributo \"url\":\n", "\n", " enclosures = item.getElementsByTagName(\"enclosure\")\n", " \n", " for e in enclosures:\n", " print(\" - \" + e.getAttribute('url'))" ] }, { "cell_type": "markdown", "id": "5ace3325-90a3-4f1b-8918-d05acd118a29", "metadata": {}, "source": [ "#### ```DOM``` parser ```lxml.etree```\n", "\n", "Esta ```API``` es más sencilla y está más adaptada a ```Python```:\n", "\n", "+ Los elementos son listas (con lo que podemos acceder a sus hijos por índices)\n", "+ Permite fácilmente modificar los elementos del ```DOM``` (lo mismo no es muy útil si estamos solo obteniendo información, pero vete tu a saber).\n", "+ Los atributos de un elemento son un diccionario que está en elemento.attrib, con lo que acceder a ellos es muy \"natural\".\n", "\n", "\n", "Tutorial: https://lxml.de/tutorial.html\n", "\n", "Para instalar el módulo:\n", "\n", "```\n", "> conda install -c anaconda lxml\n", "```" ] }, { "cell_type": "code", "execution_count": 16, "id": "7473dd94-8255-48c0-b189-093d851153d9", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " + Un periodista que viajó a Milán para cubrir el Valencia-Atalanta, positivo por coronavirus\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582795523_075914_1582795972_noticia_normal.jpg\n", " + Mapa de la expansión y claves para entender el coronavirus de Wuhan\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1582742390_miniatura_normal.png\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582712658_011286_1583145456_portadilla_normal.png\n", " + El turismo italiano se resiente; España mira expectante\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582751511_964259_1582759340_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/f6f986136f7d70e226ac5f38df9fa88a_video_1800.mp4\n", " + “La magnitud del problema del coronavirus no será diferente a una gripe”\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582744844_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582744701_468958_1582797813_noticia_normal.jpg\n", " + Seis italianos encerrados por partida doble\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/26/actualidad/1582745125_354016_1582747646_noticia_normal.jpg\n", " + Trump nombra al vicepresidente Pence a cargo de la crisis del coronavirus\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582762594_400436_1582763694_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/202002279361360_1582792664_video_1800.mp4\n", " + El coronavirus de Wuhan | Japón cerrará todos sus centros escolares hasta fin de marzo\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582773414_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582772469_101682_1582786463_noticia_normal.jpg\n", " + El Gobierno salva el primer escollo de los Presupuestos gracias a ERC\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582797637_miniatura_normal.jpg\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/27/actualidad/1582790343_062149_1582807919_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/bd6f863b8c606b83aa4a190909cad1d2_video_1800.mp4\n", " + La mesa de diálogo se reunirá mensualmente y los acuerdos serán “en el marco de la seguridad jurídica”\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_miniatura_normal.jpg\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582729437_069559_1582743257_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/9265b903ba4c44f3771b64a42fe06095_video_1800.mp4\n", " + Así avanzan las encuestas en Galicia y País Vasco\n", " - https://ep00.epimg.net/politica/imagenes/2020/02/26/actualidad/1582705222_037590_1582705381_noticia_normal.jpg\n", " + Ciudadanos pagaba un sueldo a un vocal de la Junta Electoral Central que resolvió recursos del partido\n", " - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_miniatura_normal.jpg\n", " - https://ep00.epimg.net/politica/imagenes/2019/11/17/actualidad/1574018167_006384_1574018434_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/20200227164217541_1582818245_video_1800.mp4\n", " + 50 antiguos ministros y dirigentes europeos se pronuncian contra el plan de Trump para Palestina\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_miniatura_normal.jpg\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/26/actualidad/1582750435_447092_1582751809_noticia_normal.jpg\n", " + Plácido Domingo anula sus representaciones en el Real antes de que el teatro las cancelara\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582794632_miniatura_normal.jpg\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/27/actualidad/1582789321_585769_1582790092_noticia_normal.jpg\n", " - https://elpaisfs.prisasd.com/elpaistop/multimedia/20202/27/86e4da93f1d390d4fd81392d9f903c91_video_1800.mp4\n", " + Así gestionan nuestros vecinos europeos la expansión de Airbnb\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_miniatura_normal.jpg\n", " - https://ep00.epimg.net/internacional/imagenes/2020/02/21/sonar_europe/1582302332_702790_1582307413_noticia_normal.jpg\n", " + La Fiscalía se querella contra una mujer por tuitear un vídeo falso de menores migrantes\n", " - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_miniatura_normal.jpg\n", " - https://ep00.epimg.net/ccaa/imagenes/2018/11/24/madrid/1543077391_578679_1543078301_noticia_normal.jpg\n", " + China desvela de qué está hecha la cara oculta de la Luna\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_miniatura_normal.jpg\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/25/ciencia/1582651238_235155_1582741504_noticia_normal.jpg\n", " + Especial EL PAÍS en Arco | Muntadas: “La sociedad ha degradado las palabras”\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/actualidad/1582803771_531979_1582803808_portada_normal.jpg\n", " + La historia de Duralex, una vajilla tan irrompible como nuestra nostalgia\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/portada/1582804176_187015_1582804289_miniatura_normal.jpg\n", " - https://ep00.epimg.net/verne/imagenes/2020/02/25/articulo/1582628993_071991_1582631824_noticia_normal.jpg\n", " + ¿Por qué los mosquitos se ceban con nuestros tobillos?\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_miniatura_normal.jpg\n", " - https://ep00.epimg.net/elpais/imagenes/2020/02/27/ciencia/1582797400_512615_1582797833_noticia_normal.jpg\n", " + Consumo da la razón a los clientes de Fnac que compraron un móvil 575 euros más barato por un error\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582799022_miniatura_normal.jpg\n", " - https://ep00.epimg.net/sociedad/imagenes/2020/02/27/actualidad/1582796975_880373_1582800034_noticia_normal.jpg\n", " + Javier Bardem: “Hoy hay algún Hernán Cortés en el Congreso”\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749328_miniatura_normal.jpg\n", " - https://ep00.epimg.net/cultura/imagenes/2020/02/26/actualidad/1582734306_817032_1582749299_noticia_normal.jpg\n" ] } ], "source": [ "# Repetimos el ejercicio anterior pero con el parser DOM lxml.etree\n", "from lxml import etree\n", "\n", "tree = etree.parse(url)\n", "\n", "raiz = tree.getroot()\n", "\n", "# Iteramos por todos los descendientes de raiz que sean \"item\"\n", "\n", "for item in raiz.iter(\"item\"):\n", " for hijo in item.iter(\"title\"):\n", " print(\" + \" + hijo.text)\n", " \n", " for hijo in item.iter(\"enclosure\"):\n", " print(\" - \" + hijo.attrib['url'])\n", " " ] }, { "cell_type": "markdown", "id": "865d1142-839e-463b-8619-07f6c5662f83", "metadata": {}, "source": [ "### Opción 4: Usando ```XPath``` para localizar elementos fácilmente\n", "\n", "```XPath``` (*XML Path Language*) es un lenguaje que permite construir expresiones que recorren y procesan un documento ```XML```. Permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del ```XML```.\n", "\n", "+ https://es.wikipedia.org/wiki/XPath\n", "+ https://www.w3schools.com/xml/xpath_syntax.asp" ] }, { "cell_type": "code", "execution_count": 17, "id": "1337f87d-8f8d-460f-ac49-41947cb310f3", "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "

" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Replicaremos el ejemplo de la gráfica de casos de COVID-19 de manera mucho más simple\n", "from lxml import etree\n", "from io import StringIO, BytesIO\n", "import matplotlib.pyplot as plt\n", "\n", "parserHTML = etree.HTMLParser()\n", "\n", "# Recuerda que html se inicializó mucho antes con el contenido de la página https://covid19.isciii.es/\n", "tree = etree.parse(StringIO(html), parserHTML)\n", "\n", "tablas = tree.xpath('//table') # Nos devuelve todos los elementos \"table\" en cualquier sitio del documento\n", " # En nuestro caso habrá devuelto 2 tablas\n", "\n", "# Nos interesa la segunda tabla de la página \n", "tabla = tablas[1]\n", "\n", "comunidades = []\n", "casos = []\n", "\n", "filas = tabla.xpath('tbody/tr') # Buscamos todos los que estén dentro de en la tabla\n", "\n", "for f in filas:\n", " comunidades.append(f[0].text)\n", " casos.append(int(f[1].text))\n", " \n", " \n", "# Creamos el gráfico de barras\n", "plt.bar(comunidades, casos)\n", "# Rotation of the bars names\n", "plt.xticks(rotation=90)\n", "# Show graphic\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "ad4a679b-058c-44a5-be34-7a8315adbd0f", "metadata": {}, "source": [ "***\n", "**Ejercicio D.1:** Obtener un campo del Sloan Digital Sky Survey (SDSS)\n", "\n", "El [SDSS](https://www.sdss.org/) tiene multitud de herramientas que permiten la obtención de datos e imágenes del cielo. Por ejemplo en https://dr12.sdss.org/fields/ podemos descargar campos concretos utilizando las coordenadas del cielo que nos interesan. Jugando un poco con el formulario de esa página \"descubrimos\" que podemos obtener el campo mediante el uso de la siguiente URL que tiene como parámetros la ascension recta (ra) y la declinación (dec):\n", "\n", "https://dr12.sdss.org/fields/raDec?ra=250.423475&dec=36.461319\n", "\n", "Programemos una función para descargar la imagen que corresponde a cualquier coordenada que nos interese:\n" ] }, { "cell_type": "code", "execution_count": 18, "id": "c7ee8236-5788-4481-b783-d189052d4d35", "metadata": {}, "outputs": [], "source": [ "# Tu código aquí\n", " \n", "# descargaSDSS(250.423475, 36.461319, \"m13.jpg\")\n", "\n", "# print(\"Descarga realizada\")" ] }, { "cell_type": "markdown", "id": "91c52100-0d0d-4b81-8f3c-a41d832828d5", "metadata": {}, "source": [ "***\n", "**Ejecicio D.2:** Astronomy Picture of the Day (APOD) (desde la página oficial)\n", "\n", "Queremos hacer un script que descargue la imagen astronómica del día y la ponga de fondo de escritorio.\n", "\n", "La función de poner como fondo de escritorio depende del sistema operativo, por lo que habrá que descomentar la función ```setWallpaper``` que corresponda en el código de más abajo.\n", "\n", "Para conseguir nuestro objetivo tendremos que descargar la página del APOD y analizar el código ```HTML``` para dar con la URL de la imagen que queremos descargar." ] }, { "cell_type": "code", "execution_count": 19, "id": "15a657b1-e3dc-4c24-a304-ee9f2cd08c55", "metadata": {}, "outputs": [], "source": [ "#import dbus # conda install -c conda-forge dbus-python SOLO PARA Linux / KDE\n", "\n", "# Para Linux con KDE\n", "#def setWallpaper(filepath):\n", "# plugin = 'org.kde.image'\n", "# jscript = \"\"\"\n", "# var allDesktops = desktops();\n", "# print (allDesktops);\n", "# for (i=0;i\n", "...\n", " \n", " \n", " \t\t\t\t \t\t\t\t\t\t\t\t \t\t\t\t\t\t\t \t\t\t\t\t\t\n", " \n", "...\n", "\n", "```\n", "Vemos que la petición que se realizar es con el método ```POST``` y que hay varios campos que se pueden rellenar: ```search``` (el campo de búsqueda en sí) y ```buscar``` (que es un radio button con dos opciones: ```msc``` o ```internet```). Además la petición del formulario se va a hacer a la misma página: ```action=\"iniciar.do\"```.\n" ] }, { "cell_type": "code", "execution_count": 20, "id": "c1ed95cf-a503-4067-8d00-3f99da6b30f8", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\t\n", "\t\t\n", "\t\t\tMinisterio de Sanidad - Buscador\n", "\t\t\t\n", "\t\t\n", "\t\t\n", "\t\t\t\n", "\t\t\n", "\t\t\t\n", "\t\t\n", "\t\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t \n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t \n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t \n", "\t \n", "\t\n", "\t\t\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
\n", "\n", "
\n", " \n", "\n", "
\n", "\n", "
\n", "
\"Ministerio
\n", "
Ministerio de Sanidad
\n", "
\n", " \n", " \n", "
\n", " \t\n", " \n", " \n", "
\n", "\n", "
\n", " \n", " \n", " \n", " \n", "\t
\n", "\t\t
\n", "\t\t\t\n", "\t\t\t\n", "\t\t\t\n", "\t\t
\n", "\t
\n", "\t\n", " \n", "
\n", "\t\t\"Servicios\n", "\t
\n", " \n", "
\n", "\n", "
\n", "\n", "\n", "\n", "\n", " \n", " \n", "\n", "
\n", "\n", "
\n", "\t\t\n", "\t\t\n", "\t\t
\n", "\t\t\t\n", "\n", "\n", "\n", "\n", "\n", "
    \n", "
  1. \n", " \n", "  Inicio\n", " \n", "
  2. \n", "
\n", "\n", "\t\t\t \n", "\t\t\t\t\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", " \n", "\n", "\n", "\n", " \n", "
\n", "\t

Buscador

\n", "\t
\n", "\t\t
\n", "\t \t\t\t\t\n", "\t\t\t\t
\n", " \t\t\t\t\t
\n", " \t\t\t\t\t\t\n", "\t \t\t\t\t\t\n", " \t\t\t\t\t\t\t\t\t\t \t\t\t\t\t\t\t\t \t\t\t\t\t\t\t \t\t\t\t\t\t\n", "\t\t\t \t\t\t\n", " \t\t\t\t\t
\n", " \t\t\t\t
\t\t\t\t\n", " \t\t\t\t\n", "\t \t\t\t\t\n", "\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t
\n", "\t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t
\n", "\t\t\t\t\t\t\n", "\t\t\t\t\t\n", "\t\t\t\t\t\n", " \t\t\t\t\t\t
\t\t\t\t\t\n", " \t\t\t\t\t \t\t
865 resultados en MSSSI para COVID
\n", " \t\t\t\t\t\t\t
\n", " \t\t\t\t\t\t\t
\n", "\t\t \t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t[Orden por relevancia]\n", "\t\t \t\t\t\t\t\t\t[Orden por fecha]\n", "\t\t \t\t\t\t\t\t\n", "\t \t\t\t\t\t\t\t\t\n", " \t\t\t\t\t\t\t
\n", " \t\t\t\t\t\t\n", "\t \t\t\t\t\t\t\n", "\t \t\t\t\t\t\t
\n", "\t \t\t\t\t\t\t\t
    \n", "\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  1. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Enfermedad por nuevo coronavirus, COVID\n", "-19]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/home.htm\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Enfermedad por nuevo coronavirus, COVID\n", "-19 6 Ministerio de Sanidad, Consumo y Bienestar Social RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio Sanidad Profesionales       Menú Sanidad Ciudadanos

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 20/04/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  2. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  3. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Ministerio de Sanidad - Profesionales - Mapa del estado de la expedición del Certificado COVID\n", " Digital de la UE en Comunidades Autónomas]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/ccd/ccaa.htm\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    Ministerio de Sanidad - Profesionales - Mapa del estado de la expedición del Certificado COVID\n", " Digital de la UE en Comunidades Autónomas 7 Ministerio de Sanidad RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio Sanidad Profesionales       Menú Sanidad Ciudadanos

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 01/04/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  4. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  5. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Ministerio de Sanidad]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/home.htm\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    Ministerio de Sanidad Ministerio de Sanidad   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar Organización Institucional Sanidad Servicios Sociales Proyectos normativos Agenda de actos Calendar Anterior Llama a la vida. Llama al 024 Información sobre la línea de atención a la conducta suicida. Información CORONAVIRUS Información sobre el brote de neumonía causada por un nuevo coronavirus (COVID\n", "-19). Bajas temperaturas

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 21/03/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  6. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  7. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Información para la ciudadanía - Coronavirus]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/ciudadania.htm\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    accesible Vacunación COVID\n", "-19 PDF accesible ¿Sabes qué es la COVID\n", " persistente o Long COVID\n", "? 12.03.2021 PDF accesible Siguiente Teléfonos de información Enlaces a las Consejerías de Sanidad de las Comunidades Autónomas Reuniones Comité Técnico COVID\n", "-19 Materiales en otros idiomas English – Inglés Français – Francés العربية – Árabe Română – Rumano 中文 - Chino РуÑÑкий – Ruso БългарÑки – Búlgaro Deutsche – Alemán اردو – Urdu Preguntas frecuentes Información sobre el coronavirus

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 14/02/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  8. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  9. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Viajes y COVID\n", "-19]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/spth.htm\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Viajes y COVID\n", "-19 6 Ministerio de Sanidad, Consumo y Bienestar Social RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio Sanidad Profesionales       Menú Sanidad Ciudadanos Profesionales Biblioteca y

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 14/02/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  10. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  11. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Presentación de PowerPoint]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/servCiudadanos/ayudas/pes/ Actualizacion_PES_MDSA2030_2020.pdf\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    MSCBS debe ser actualizado anualmente de acuerdo con la información relevante disponible. La actualización debe realizarse antes del 30 de abril de cada ejercicio presupuestario pero debido a la especial que estamos atravesando situación derivada de la pandemia COVID\n", "-19 la emisión de la actualización ha tenido lugar más tarde de lo fecha legalmente establecida. MINISTERIO DE DERECHOS SOCIALES Y AGENDA 2030 2 MINISTERIO DEL INTERIOR TRABAJO Y PRESTACIONES PENITENCIARIAS Los objetivos estratégicos

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 19/04/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  12. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  13. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Ministerio de Sanidad - Ministerio - Plan de Recuperación, Transformación y Resiliencia]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/organizacion/recuTransResilencia/home.htm\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    del COVID\n", "-19, así como para preparar al país para afrontar los retos del futuro. Así, el PRTR se articula en cuatro bloques: España ecológica, transición digital, igualdad de género y, por último, cohesión social y territorial . Estas cuatro directrices se reparten en 10 políticas palanca, que a su vez se articulan en 30 componentes. Dentro de las diez políticas palanca que conforman el PRTR, el Ministerio de Sanidad contribuye a “Una administración para el siglo XXI”, “Pacto por la ciencia y la

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 26/03/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  14. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  15. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[¿Sabes qué es la COVID\n", " persistente o "Long COVID\n", ""?]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/documentos/COVID_persistente.pdf\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    ¿Sabes qué es la COVID\n", " persistente o "Long COVID\n", ""? ¿Sabes qué es la COVID\n", " persistente o “Long COVID\n", "”?  Es un síndrome que se caracteriza por la persistencia de síntomas de COVID\n", "-19 semanas o meses después de la infección inicial, o por la aparición de los síntomas tras un tiempo sin ellos.  Su aparición no está relacionada con la gravedad de la infección inicial, por lo que puede afectar tanto a pacientes leves como a graves hospitalizados. Afecta a personas de cualquier edad, aunque parece

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 03/03/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  16. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  17. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Cómo identificar a tus contactos estrechos]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/documentos/COVID-19_Como_identificare_tus_contactos_estrechos.pdf\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    Cómo identificar a tus contactos estrechos . CÓMO IDENTIFICAR A TUS CONTACTOS ESTRECHOS SI TIENES COVID\n", "-19: Quédate en casa y sigue las recomendaciones para el aislamiento domiciliario Haz saber a tus contactos estrechos que tienes COVID\n", "-19, para que puedan ponerse en cuarentena en casa y contactar con su centro de salud ¿QUIÉNES SON TUS CONTACTOS ESTRECHOS? Son todas las personas que hayan estado en contacto contigo desde 48 horas antes de iniciar los síntomas o, si no tienes síntomas, de la

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 03/03/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  18. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t \t\t\t\t\t\t\t\t\t
  19. \n", "\t\t \t\t\t\t\t\t\t\t\t\t

    \n", "\t\t\t\t\t\t\t \t\t\t\t\t\t[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Salud pública - Prevención de la salud - Vacunaciones - Programa vacunación - Vacunas COVID\n", "-19]\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \t \t\t\t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    \n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\t\t\t\thttps://www.mscbs.gob.es/profesionales/saludPublica/prevPromocion/ vacunaciones/covid19/vacunasCovid19.htm\n", "\t\t\t \t\t\t\t\t \t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t

    \t\t\t\n", "\t\t\t \t\t\t\t\t\t\t\t\t

    Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Salud pública - Prevención de la salud - Vacunaciones - Programa vacunación - Vacunas COVID\n", "-19 6 Ministerio de Sanidad, Consumo y Bienestar Social RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio

    \n", "\t\t\t \t\t\t\t\t \t\t\t

    Fecha: 22/03/2023

    \n", "\t\t \t\t\t\t\t \t\t\t\t
  20. \n", "\t\t \t\t\t\t\t\t\t\t\n", "\t\t\t\t\t\t\t\t\t\n", "\t \t\t\t\t\t\t\t
\n", "\t \t\t\t\t\t\t
\n", "\t \t\t\t\t\t
\n", "\t\t \t\t\t\t\t\t\n", "\t\t\t \t\t\t\t\t \t\t\t\t[0]\n", "\t\t\t \t\t\t\t\t \n", "\t\t\t \t\t\t\t\t \t\t\t\t[10]\n", "\t\t\t \t\t\t\t\t \n", "\t\t\t \t\t\t\t\t \t\t\t\t[20]\n", "\t\t\t \t\t\t\t\t \n", "\t\t\t \t\t\t\t\t \t\t\t\t[30]\n", "\t\t\t \t\t\t\t\t \n", "\t\t\t \t\t\t\t\t \t\t\t\t[40]\n", "\t\t\t \t\t\t\t\t \n", "\t \t\t\t\t \t\t
\t\t\t\t \n", "\t\t\t\t \t
\n", "\t\t\t\t \n", "\t\t\t \n", "\t\t
\t\t\n", "\t
\n", "
\n", "\t\t\t\n", "\t\t\tSubir\n", "\t\t
\n", "\t\t\n", "\t\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t
\n", "\t\t\t
\n", "\t\t\t\t\n", "\t\t\t\t\n", "\t\t\t
\n", "\t\t\t

\"Barra

\n", "\t\t
\t\n", "\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\t\n", "\t\n", "\n" ] } ], "source": [ "# Ejemplo de búsqueda en la página descrita anteriormente\n", "\n", "import requests\n", "\n", "url = \"https://www.mscbs.gob.es/buscador/iniciar.do\"\n", "\n", "parametros = {\n", " 'search': 'COVID', # Buscaremos el término 'COVID'\n", " 'buscar': 'msc' # Dentro de la página del ministerio\n", "}\n", "\n", "respuesta = requests.post(url, parametros)\n", "\n", "html = respuesta.content.decode(\"utf-8\") \n", "\n", "print(html)\n" ] }, { "cell_type": "markdown", "id": "de7e5807-c29d-49cd-b8d2-abd72354553f", "metadata": {}, "source": [ "### Beautiful Soup\n", "\n", "Es otro parseador de páginas web muy utilizado por tener también una sintaxis sencilla y potente:\n", "\n", "https://www.crummy.com/software/BeautifulSoup/bs4/doc/\n", "\n", "Para instalarlo:\n", "\n", "```bash\n", "> conda install -c anaconda beautifulsoup4\n", "```\n", "\n", "Veamos un ejemplo sobre como podemos obtener de la página anterior los títulos de los documentos que ha devuelto la búsqueda que hemos hecho.\n" ] }, { "cell_type": "code", "execution_count": 21, "id": "af86592a-7f6f-46aa-8810-52162e736659", "metadata": {}, "outputs": [], "source": [ "from bs4 import BeautifulSoup\n", "\n", "soup = BeautifulSoup(html, 'html.parser')" ] }, { "cell_type": "code", "execution_count": 22, "id": "9faa694d-0849-42be-bc0c-83643c2ce7d4", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " Ministerio de Sanidad - Buscador\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
\n", " \n", "
\n", "
\n", "
\n", " \n", " \"Ministerio\n", " \n", "
\n", "
\n", " Ministerio\n", " \n", " de Sanidad\n", " \n", "
\n", "
\n", " \n", "
\n", " \n", " \n", "
\n", "
\n", " \n", " \n", " \n", "
\n", "
\n", " \n", "
\n", " \n", " \"Servicios\n", " \n", "
\n", "
\n", "
\n", " \n", " \n", " \n", " \n", "
\n", "
\n", " \n", "
\n", "
    \n", "
  1. \n", " \n", " \n", " \n", " \n", " Inicio\n", " \n", " \n", "
  2. \n", "
\n", " \n", " \n", " \n", "
\n", "

\n", " Buscador\n", "

\n", "
\n", "
\n", " \n", "
\n", "
\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
\n", " \n", "
\n", " \n", "
\n", "
\n", " \n", "
\n", " 865 resultados en MSSSI para COVID\n", "
\n", "
\n", " \n", "
\n", "
\n", " \n", " [Orden por relevancia]\n", " \n", " \n", " [Orden por fecha]\n", " \n", "
\n", " \n", "
\n", "
    \n", "
  1. \n", "

    \n", " \n", " [Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Enfermedad por nuevo coronavirus,\n", " \n", " COVID\n", " \n", " -19]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/home.htm\n", " \n", " \n", "

    \n", "

    \n", " Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Enfermedad por nuevo coronavirus,\n", " \n", " COVID\n", " \n", " -19 6 Ministerio de Sanidad, Consumo y Bienestar Social RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio Sanidad Profesionales       Menú Sanidad Ciudadanos\n", "

    \n", "

    \n", " Fecha: 20/04/2023\n", "

    \n", "
  2. \n", "
  3. \n", "

    \n", " \n", " [Ministerio de Sanidad - Profesionales - Mapa del estado de la expedición del Certificado\n", " \n", " COVID\n", " \n", " Digital de la UE en Comunidades Autónomas]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/ccd/ccaa.htm\n", " \n", " \n", "

    \n", "

    \n", " Ministerio de Sanidad - Profesionales - Mapa del estado de la expedición del Certificado\n", " \n", " COVID\n", " \n", " Digital de la UE en Comunidades Autónomas 7 Ministerio de Sanidad RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio Sanidad Profesionales       Menú Sanidad Ciudadanos\n", "

    \n", "

    \n", " Fecha: 01/04/2023\n", "

    \n", "
  4. \n", "
  5. \n", "

    \n", " \n", " [Ministerio de Sanidad]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/home.htm\n", " \n", " \n", "

    \n", "

    \n", " Ministerio de Sanidad Ministerio de Sanidad   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar Organización Institucional Sanidad Servicios Sociales Proyectos normativos Agenda de actos Calendar Anterior Llama a la vida. Llama al 024 Información sobre la línea de atención a la conducta suicida. Información CORONAVIRUS Información sobre el brote de neumonía causada por un nuevo coronavirus (\n", " \n", " COVID\n", " \n", " -19). Bajas temperaturas\n", "

    \n", "

    \n", " Fecha: 21/03/2023\n", "

    \n", "
  6. \n", "
  7. \n", "

    \n", " \n", " [Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Información para la ciudadanía - Coronavirus]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/ciudadania.htm\n", " \n", " \n", "

    \n", "

    \n", " accesible Vacunación\n", " \n", " COVID\n", " \n", " -19 PDF accesible ¿Sabes qué es la\n", " \n", " COVID\n", " \n", " persistente o Long\n", " \n", " COVID\n", " \n", " ? 12.03.2021 PDF accesible Siguiente Teléfonos de información Enlaces a las Consejerías de Sanidad de las Comunidades Autónomas Reuniones Comité Técnico\n", " \n", " COVID\n", " \n", " -19 Materiales en otros idiomas English – Inglés Français – Francés العربية – Árabe Română – Rumano 中文 - Chino РуÑÑкий – Ruso БългарÑки – Búlgaro Deutsche – Alemán اردو – Urdu Preguntas frecuentes Información sobre el coronavirus\n", "

    \n", "

    \n", " Fecha: 14/02/2023\n", "

    \n", "
  8. \n", "
  9. \n", "

    \n", " \n", " [Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Viajes y\n", " \n", " COVID\n", " \n", " -19]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/spth.htm\n", " \n", " \n", "

    \n", "

    \n", " Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Viajes y\n", " \n", " COVID\n", " \n", " -19 6 Ministerio de Sanidad, Consumo y Bienestar Social RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio Sanidad Profesionales       Menú Sanidad Ciudadanos Profesionales Biblioteca y\n", "

    \n", "

    \n", " Fecha: 14/02/2023\n", "

    \n", "
  10. \n", "
  11. \n", "

    \n", " \n", " [Presentación de PowerPoint]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/servCiudadanos/ayudas/pes/ Actualizacion_PES_MDSA2030_2020.pdf\n", " \n", " \n", "

    \n", "

    \n", " MSCBS debe ser actualizado anualmente de acuerdo con la información relevante disponible. La actualización debe realizarse antes del 30 de abril de cada ejercicio presupuestario pero debido a la especial que estamos atravesando situación derivada de la pandemia\n", " \n", " COVID\n", " \n", " -19 la emisión de la actualización ha tenido lugar más tarde de lo fecha legalmente establecida. MINISTERIO DE DERECHOS SOCIALES Y AGENDA 2030 2 MINISTERIO DEL INTERIOR TRABAJO Y PRESTACIONES PENITENCIARIAS Los objetivos estratégicos\n", "

    \n", "

    \n", " Fecha: 19/04/2023\n", "

    \n", "
  12. \n", "
  13. \n", "

    \n", " \n", " [Ministerio de Sanidad - Ministerio - Plan de Recuperación, Transformación y Resiliencia]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/organizacion/recuTransResilencia/home.htm\n", " \n", " \n", "

    \n", "

    \n", " del\n", " \n", " COVID\n", " \n", " -19, así como para preparar al país para afrontar los retos del futuro. Así, el PRTR se articula en cuatro bloques: España ecológica, transición digital, igualdad de género y, por último, cohesión social y territorial . Estas cuatro directrices se reparten en 10 políticas palanca, que a su vez se articulan en 30 componentes. Dentro de las diez políticas palanca que conforman el PRTR, el Ministerio de Sanidad contribuye a “Una administración para el siglo XXI”, “Pacto por la ciencia y la\n", "

    \n", "

    \n", " Fecha: 26/03/2023\n", "

    \n", "
  14. \n", "
  15. \n", "

    \n", " \n", " [¿Sabes qué es la\n", " \n", " COVID\n", " \n", " persistente o \"Long\n", " \n", " COVID\n", " \n", " \"?]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/documentos/COVID_persistente.pdf\n", " \n", " \n", "

    \n", "

    \n", " ¿Sabes qué es la\n", " \n", " COVID\n", " \n", " persistente o \"Long\n", " \n", " COVID\n", " \n", " \"? ¿Sabes qué es la\n", " \n", " COVID\n", " \n", " persistente o “Long\n", " \n", " COVID\n", " \n", " ”?  Es un síndrome que se caracteriza por la persistencia de síntomas de\n", " \n", " COVID\n", " \n", " -19 semanas o meses después de la infección inicial, o por la aparición de los síntomas tras un tiempo sin ellos.  Su aparición no está relacionada con la gravedad de la infección inicial, por lo que puede afectar tanto a pacientes leves como a graves hospitalizados. Afecta a personas de cualquier edad, aunque parece\n", "

    \n", "

    \n", " Fecha: 03/03/2023\n", "

    \n", "
  16. \n", "
  17. \n", "

    \n", " \n", " [Cómo identificar a tus contactos estrechos]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/ alertasActual/nCov/documentos/COVID-19_Como_identificare_tus_contactos_estrechos.pdf\n", " \n", " \n", "

    \n", "

    \n", " Cómo identificar a tus contactos estrechos . CÓMO IDENTIFICAR A TUS CONTACTOS ESTRECHOS SI TIENES\n", " \n", " COVID\n", " \n", " -19: Quédate en casa y sigue las recomendaciones para el aislamiento domiciliario Haz saber a tus contactos estrechos que tienes\n", " \n", " COVID\n", " \n", " -19, para que puedan ponerse en cuarentena en casa y contactar con su centro de salud ¿QUIÉNES SON TUS CONTACTOS ESTRECHOS? Son todas las personas que hayan estado en contacto contigo desde 48 horas antes de iniciar los síntomas o, si no tienes síntomas, de la\n", "

    \n", "

    \n", " Fecha: 03/03/2023\n", "

    \n", "
  18. \n", "
  19. \n", "

    \n", " \n", " [Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Salud pública - Prevención de la salud - Vacunaciones - Programa vacunación - Vacunas\n", " \n", " COVID\n", " \n", " -19]\n", " \n", "

    \n", "

    \n", " \n", " \n", " https://www.mscbs.gob.es/profesionales/saludPublica/prevPromocion/ vacunaciones/covid19/vacunasCovid19.htm\n", " \n", " \n", "

    \n", "

    \n", " Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Salud pública - Prevención de la salud - Vacunaciones - Programa vacunación - Vacunas\n", " \n", " COVID\n", " \n", " -19 6 Ministerio de Sanidad, Consumo y Bienestar Social RSS Facebook Twitter Youtube Suscripción a listas Webs temáticas   Castellano Castellano Català Euskara Galego Valencià English Français Servicios al ciudadano Sede Electrónica Buscar   Organización Institucional Sanidad Servicios Sociales e Igualdad Proyectos normativos   Inicio\n", "

    \n", "

    \n", " Fecha: 22/03/2023\n", "

    \n", "
  20. \n", "
\n", "
\n", " \n", "
\n", " \n", " [0]\n", " \n", " \n", " [10]\n", " \n", " \n", " [20]\n", " \n", " \n", " [30]\n", " \n", " \n", " [40]\n", " \n", "
\n", " \n", "
\n", " \n", "
\n", "
\n", "
\n", " \n", " \n", " \n", " Subir\n", " \n", " \n", " \n", "
\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", "\n" ] } ], "source": [ "print(soup.prettify()) # Simplemente nos permite ver el documento mejor formatado (indentaciones, espacios en blanco...)\n" ] }, { "cell_type": "code", "execution_count": 23, "id": "3a935e9d-6910-43b6-a558-575f2c885ab9", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Enfermedad por nuevo coronavirus, COVID\n", "-19]\n", "https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/home.htm\n", "[Ministerio de Sanidad - Profesionales - Mapa del estado de la expedición del Certificado COVID\n", " Digital de la UE en Comunidades Autónomas]\n", "https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/ccd/ccaa.htm\n", "[Ministerio de Sanidad]\n", "https://www.mscbs.gob.es/home.htm\n", "[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Información para la ciudadanía - Coronavirus]\n", "https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/ciudadania.htm\n", "[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Viajes y COVID\n", "-19]\n", "https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/spth.htm\n", "[Presentación de PowerPoint]\n", "https://www.mscbs.gob.es/servCiudadanos/ayudas/pes/Actualizacion_PES_MDSA2030_2020.pdf\n", "[Ministerio de Sanidad - Ministerio - Plan de Recuperación, Transformación y Resiliencia]\n", "https://www.mscbs.gob.es/organizacion/recuTransResilencia/home.htm\n", "[¿Sabes qué es la COVID\n", " persistente o \"Long COVID\n", "\"?]\n", "https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/COVID_persistente.pdf\n", "[Cómo identificar a tus contactos estrechos]\n", "https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/COVID-19_Como_identificare_tus_contactos_estrechos.pdf\n", "[Ministerio de Sanidad, Consumo y Bienestar Social - Profesionales - Salud pública - Prevención de la salud - Vacunaciones - Programa vacunación - Vacunas COVID\n", "-19]\n", "https://www.mscbs.gob.es/profesionales/saludPublica/prevPromocion/vacunaciones/covid19/vacunasCovid19.htm\n" ] } ], "source": [ "# Buscamos un
\n", "\n", "cuadroResultados = soup.find('div', {\"class\": \"capaCentroBuscador\"})\n", "\n", "# De ese cuadro extraemos todos los
  • (cada uno tiene un resultado de la búsqueda)\n", "\n", "resultados = cuadroResultados.find_all('li')\n", "\n", "for r in resultados:\n", " # Dentro de cada
  • tenemos un

    con un \n", " urlNoticia = r.p.a['href']\n", " \n", " tituloNoticia = r.p.a.text\n", " \n", " print(tituloNoticia)\n", " print(urlNoticia)" ] }, { "cell_type": "markdown", "id": "5e20ea8d-ce72-4a4d-a885-5de0784537c0", "metadata": {}, "source": [ "### Trabajando con otros formatos: ```CSV```\n", "\n", "Sacar información de un documento ```CSV``` en principio debe ser mucho más fácil ya que es un documento que normalmente separa los datos de una tabla usando el salto de línea ```\\n``` como delimitador de fila y la coma ortográfica ```,``` como separador de columnas. Sin embargo el uso de ```\"``` dentro de los campos puede dificultar la división de cada línea en distintos campos. Por suerte ya tenemos funciones preparadas que son capaces de entender este formato y convertirlo a un formato más amigable para ```Python```." ] }, { "cell_type": "code", "execution_count": 24, "id": "41f58007-1452-4a10-bb6b-4b06f278b527", "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ ":92: MatplotlibDeprecationWarning: The seaborn styles shipped by Matplotlib are deprecated since 3.6, as they no longer correspond to the styles shipped by seaborn. However, they will remain available as 'seaborn-v0_8-