Codigo postal argentino

Reto o consigna inicial

Conseguir el nuevo codigo CPA desde la pagina https://codigo-postal.co/ y cargarlos en archivos csv.

Propuesta de solucion

La propuesta es usar scraping para conseguir los codigos que estan alojados en tablas desde diferentes endpoints despues se procedera a transformarlos y por ultimo a cargarlos en un csv.

Herramientas

Python

Scrapy

Pandas

Se usaran spiders para navegar por todos los links que contienen datos.

Complicaciones

Diseño de pagina heterogenio: La pagina no es consistente en sus etiquetas html y css, ya que se encontraron al menos 4 diseños lo que dificulto el armado de los spiders.
Nombres de localidades mal escritos: Algunos nombres de localidades estaban mal escritos lo que conllevo mas trabajo en pandas.
Tamaño de csv muy grande: El tamaño del csv es de casi 1gb.

Conclusiones y solucion

Se utilizarion 2 spiders para scrapear la informacion, se hizo un trabajo de transformacion en pandas de datatype, orden e eliminacion de datos erroneos, faltantes o mal obtenidos.

Para el problema de la memoria se uso un sistema de compresion para transformar el archivo .csv de 1gb de tamaño a dos archivos .parquet usado en bigdata de 19.4mb y 21.6mb para que tambien puedan ser subidos a github, ya que el limite es 25mb.

total_filas = 11316956
total_columnas = 8
archivos_parquet = 2
tamaño_archivos_parquet = 19.4mb, 21.6mb
csv_final_descomprimido = 944mb

Conversor parquet a csv

Para convertir los archivos .parquet a .csv ejecutar el script de python " conversor.py ".

pip install -r requirements.txt
python3 conversor.py

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
CodigoPostal		CodigoPostal
data		data
img		img
.gitignore		.gitignore
ETL.ipynb		ETL.ipynb
README-consigna.md		README-consigna.md
README.md		README.md
codigosCPA_1.parquet		codigosCPA_1.parquet
codigosCPA_2.parquet		codigosCPA_2.parquet
conversor.py		conversor.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Codigo postal argentino

Reto o consigna inicial

Propuesta de solucion

Herramientas

Complicaciones

Conclusiones y solucion

Conversor parquet a csv

About

Releases

Packages

Contributors 3

Languages

palta-app/codigo-postal-argentino

Folders and files

Latest commit

History

Repository files navigation

Codigo postal argentino

Reto o consigna inicial

Propuesta de solucion

Herramientas

Complicaciones

Conclusiones y solucion

Conversor parquet a csv

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages