Skip to content

palta-app/codigo-postal-argentino

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Codigo postal argentino

Reto o consigna inicial

Conseguir el nuevo codigo CPA desde la pagina https://codigo-postal.co/ y cargarlos en archivos csv.

Propuesta de solucion

La propuesta es usar scraping para conseguir los codigos que estan alojados en tablas desde diferentes endpoints despues se procedera a transformarlos y por ultimo a cargarlos en un csv.

Herramientas

  Python

  Scrapy

  Pandas

Se usaran spiders para navegar por todos los links que contienen datos.

Complicaciones

  • Diseño de pagina heterogenio: La pagina no es consistente en sus etiquetas html y css, ya que se encontraron al menos 4 diseños lo que dificulto el armado de los spiders.
  • Nombres de localidades mal escritos: Algunos nombres de localidades estaban mal escritos lo que conllevo mas trabajo en pandas.
  • Tamaño de csv muy grande: El tamaño del csv es de casi 1gb.

Conclusiones y solucion

Se utilizarion 2 spiders para scrapear la informacion, se hizo un trabajo de transformacion en pandas de datatype, orden e eliminacion de datos erroneos, faltantes o mal obtenidos.

Para el problema de la memoria se uso un sistema de compresion para transformar el archivo .csv de 1gb de tamaño a dos archivos .parquet usado en bigdata de 19.4mb y 21.6mb para que tambien puedan ser subidos a github, ya que el limite es 25mb.

total_filas = 11316956
total_columnas = 8
archivos_parquet = 2
tamaño_archivos_parquet = 19.4mb, 21.6mb
csv_final_descomprimido = 944mb

Conversor parquet a csv

Para convertir los archivos .parquet a .csv ejecutar el script de python " conversor.py ".

pip install -r requirements.txt
python3 conversor.py

About

🥑 📬 Challenge para obtener los CPAs

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •