parquet-files

Here are 22 public repositories matching this topic...

uber / petastorm

Petastorm library enables single machine or distributed training and evaluation of deep learning models from datasets in Apache Parquet format. It supports ML frameworks such as Tensorflow, Pytorch, and PySpark and can be used from pure Python code.

machine-learning deep-learning tensorflow pytorch pyspark parquet parquet-files sysml pyarrow

Updated Dec 2, 2023
Python

uhussain / WebCrawlerForOnlineInflation

Star

Price Crawler - Tracking Price Inflation

spark pandas-dataframe python3 dash s3-storage parquet-files aws-athena commoncrawl petabytes calculate-inflation-rates

Updated Jun 23, 2020
Python

mongodb-labs / mongo-arrow

Star

MongoDB integrations for Apache Arrow. Export MongoDB documents to numpy array, parquet files, and pandas dataframes in one line of code.

python mongodb arrow pandas-dataframe parquet-files numpy-arrays apache-arrow

Updated Feb 26, 2025
Python

rupeshtiwari / kafka-spark-streaming-avro-in-python

Sponsor

Star

Streaming kafka events using Spark in avro format and saving the events in parquet format

python java aws scala kafka spark avro python3 pyspark parquet parquet-files real-time-streaming msk confluent-kafka

Updated Apr 4, 2022
Python

Dorianteffo / vg-sales-glue-spark-terraform

Star

ETL job with AWS Glue

python docker aws spark terraform iac parquet-files aws-glue

Updated Feb 4, 2024
Python

domvwt / parquet-inspector

Star

A command line tool for inspecting parquet files with PyArrow.

cli parquet parquet-generator parquet-files parquet-cli parquet-tools parquet-viewer

Updated Feb 22, 2023
Python

IgnacioMB / csvcli

Star

A light-weight command-line tool to browse and query CSV, Excel and Apache Parquet files, regardless of their size.

csv-files delimiter parquet parquet-files csvcli

Updated Jan 9, 2021
Python

rigganni / AWS-Spark-Million-Song-ETL

Star

Load data from the Million Song Dataset into a final dimensional model stored in S3.

apache-spark etl aws-emr parquet parquet-files dimensional-model aws-emr-clusters

Updated May 17, 2020
Python

m-kwiedor / lambda-merge-parquet

Star

Merge Parquet Files on S3 with this AWS Lambda Function

lambda aws-s3 parquet-files fastparquet

Updated Nov 28, 2020
Python

Matbbastos / epw-analysis

Star

Processing and exporting data from EPW files into other formats.

python parquet-files epw-files

Updated Jul 28, 2024
Python

milamarcan / etl_aws_s3_spark_datalake

Star

ETL pipeline that transforms JSON files from AWS S3 bucket to Parquet files also in S3 bucket

aws s3-bucket python3 parquet-files

Updated Aug 17, 2024
Python

Ayushverma135 / JSON-to-PARQUET-Parser

Sponsor

Star

Easily convert JSON data into Parquet format for efficient storage and analysis. Simplify data processing and analysis pipelines by converting JSON objects into optimized Parquet files.

python json pandas parquet-files

Updated May 11, 2024
Python

johnbrandborg / s3-inventory-report

Star

Processes S3 Inventory Manifests and generates a report about the folder size and object size average

inventory s3 parquet-files csv-file orc-files

Updated Dec 9, 2023
Python

gr3gor1 / Adv-DBs

Star

ECE NTUA Assignment

spark pyspark hdfs distributed-database rdd parquet-files yellow-taxi

Updated Mar 30, 2023
Python

FutureTroglodyte / udacity-nd027-data_lake

Star

Udacity Data Engeneering Nanodegree Program - My Submission of Project: Data Lake

spark aws-s3 data-engineering data-lake parquet-files etl-pipeline

Updated Mar 27, 2021
Python

masalinas / poc-minio-parquet-docker

Star

PoC Minio Docker with parquet parser

docker minio parquet-files

Updated Jun 1, 2024
Python

Yo-mah-Ya / File_Creator

Star

create files which formats are like "orc", "parquet", "xlsx", "json" and so on with Python

pandas python3 parquet parquet-files orcfile

Updated Oct 4, 2023
Python

nafisalawalidris / NYC_Taxi_Data_Pipeline

Star

This repository contains the NYC Taxi Data Engineering Pipeline project, which aims to build a comprehensive data engineering pipeline using NYC taxi data from the years 2022 and 2023. The pipeline involves extracting, transforming and loading (ETL) data into a Snowflake database, followed by creating a dashboard for visualisation.

python dashboard data-transformation data-visualization data-engineering data-cleaning parquet-files etl-pipeline snowflake-database nyc-taxi-data

Updated Jul 4, 2024
Python

RobertoSoler / telegram-chatbot-analysis

Star

Aplicação que captura mensagens de um grupo de Telegram e as armazena diariamente em arquivos, utilizando AWS S3 para armazenamento em nuvem. Em seguida, as mensagens são analisadas com foco em sentimento, menções a produtos da empresa e detecção de intenção de compra. O processamento é automatizado em batch usando funções Lambda da AWS.

python data-science machine-learning sql aws-lambda athena aws-s3 webhook pandas bucket api-rest telegram-bot-api parquet-files nltk-library

Updated Aug 30, 2024
Python

ankhipaul / python_demos

Star

Practice of Python skill

json pandas-dataframe pandas hackerrank pyspark kafka-consumer xml-parser kafka-producer parquet-files google-address-validation pandas-python

Updated Oct 31, 2024
Python

Improve this page

Add a description, image, and links to the parquet-files topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the parquet-files topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

parquet-files

Here are 22 public repositories matching this topic...

uber / petastorm

uhussain / WebCrawlerForOnlineInflation

mongodb-labs / mongo-arrow

rupeshtiwari / kafka-spark-streaming-avro-in-python

Dorianteffo / vg-sales-glue-spark-terraform

domvwt / parquet-inspector

IgnacioMB / csvcli

rigganni / AWS-Spark-Million-Song-ETL

m-kwiedor / lambda-merge-parquet

Matbbastos / epw-analysis

milamarcan / etl_aws_s3_spark_datalake

Ayushverma135 / JSON-to-PARQUET-Parser

johnbrandborg / s3-inventory-report

gr3gor1 / Adv-DBs

FutureTroglodyte / udacity-nd027-data_lake

masalinas / poc-minio-parquet-docker

Yo-mah-Ya / File_Creator

nafisalawalidris / NYC_Taxi_Data_Pipeline

RobertoSoler / telegram-chatbot-analysis

ankhipaul / python_demos

Improve this page

Add this topic to your repo