Skip to content

Latest commit

 

History

History
67 lines (48 loc) · 2.39 KB

README.md

File metadata and controls

67 lines (48 loc) · 2.39 KB

🤖🧰 Web Scraping | Recanto das Letras 📓✒

version

Projeto Web Scraping Python para o site Recanto das Letras, rede social de compartilhamento de contos, poesias e textos em geral.

Web Scraping Python project for the Recanto das Letras website, a social network for sharing stories, poetry and texts in general.

License: CC-BY-NC-SA

Psycopg SQLalchemy Selenium Pandas NumPy

WebScraping

Recursos

  • Coleta e cataloga todos os textos de um perfil pessoal, armazenando os seguintes dados dos textos:
    • id [gerado automaticamente]
    • Título;
    • Conteúdo do texto;
    • URL para texto;
    • Categoria;
    • Data de publicação;
    • Visualizações.
  • Armazena em servidor PostgreSQL.

postgres

Para Adicionar

  • Coleta de outros perfis.

Executando 🏁

  1. Baixe o webdriver para uso da biblioteca Selenium, disponível aqui.
  2. Crie um arquivo .env na pasta raiz do repositório contendo as seguintes informações:
# Login Recanto das Letras
user =   # Usuário
password =   # Senha

# Webdriver
chrome_driver_path =   # Caminho para Webdriver (p.ex. C:\Users\user\.google\chromedriver.exe)

# PostgreSQL
user_db =   # Usuário do Banco de Dados
password_db =   # Senha
host_db =   # Host (localhost)
port_db =   # Porta
database_db =   # Banco de Dados destino
  1. Instale as dependências e execute.
$ pip install -r requirements.txt
$ python getpoetry/main.py

Teste 🚧

  • Instale as dependências de desenvolvedor.
$ pip install -r requirements-dev.txt
$ pytest getpoetry