🤖🧰 Web Scraping | Recanto das Letras 📓✒
Projeto Web Scraping Python para o site Recanto das Letras, rede social de compartilhamento de contos, poesias e textos em geral.
Web Scraping Python project for the Recanto das Letras website, a social network for sharing stories, poetry and texts in general.
- Coleta e cataloga todos os textos de um perfil pessoal, armazenando os seguintes dados dos textos:
- id [gerado automaticamente]
- Título;
- Conteúdo do texto;
- URL para texto;
- Categoria;
- Data de publicação;
- Visualizações.
- Armazena em servidor PostgreSQL.
- Coleta de outros perfis.
- Baixe o webdriver para uso da biblioteca Selenium, disponível aqui.
- Crie um arquivo
.env
na pasta raiz do repositório contendo as seguintes informações:
# Login Recanto das Letras
user = # Usuário
password = # Senha
# Webdriver
chrome_driver_path = # Caminho para Webdriver (p.ex. C:\Users\user\.google\chromedriver.exe)
# PostgreSQL
user_db = # Usuário do Banco de Dados
password_db = # Senha
host_db = # Host (localhost)
port_db = # Porta
database_db = # Banco de Dados destino
- Instale as dependências e execute.
$ pip install -r requirements.txt
$ python getpoetry/main.py
- Instale as dependências de desenvolvedor.
$ pip install -r requirements-dev.txt
$ pytest getpoetry