Machine learning aplicado a análise de dados no auxílio a elaboração, monitoramento e avaliação de políticas públicas de mercado de trabalho da população jovem no brasil: uma pesquisa aplicada à construção do “juntadados juventude”.

Autores

  • Francisca Lorrayne de Lima Santos UFERSA
  • Wagna Maquis Cardoso de Melo Gonçalves

Palavras-chave:

Automação, análise de dados, SQL, políticas públicas, juventude

Resumo

O Cadastro Geral de Empregados e Desempregados (CAGED) é um banco de dados do Governo Federal que reúne informações gerais sobre as admissões e demissões de trabalhadores ocorridas num dado período, em regime da Consolidação das Leis do Trabalho (CLT) por parte das empresas, fornecendo informações sem tratamento ao público em geral. Neste sentido, o presente plano de trabalho objetivou desenvolver um sistema automatizado para coletar, tratar e analisar dados sobre o mercado de trabalho oriundos do CAGED. Assim, utilizando técnicas de Machine Learning e automação foram extraídos dados relevantes que servem de base para formatar indicadores que auxiliem no entendimento das dinâmicas de contratação e demissão. Inicialmente, foi realizado um teste piloto com a coleta dos dados manualmente para conhecer os indicadores, a confiança dos dados e o formato de como iriam ser apresentados. Em seguida, foi elaborado um sistema automatizado para realizar tais tarefas. O processo de automação da coleta dos dados se valeu da linguagem Python e da técnica de Web Scraping, já para o armazenamento criou-se um banco de dados no SQL da Microsoft. Após realizar a coleta dos dados, os mesmos passaram por um processo de tratamento e limpeza rigoroso com as bibliotecas Pandas e NumPy, que garantem a qualidade, consistência e integridade das informações. Esse tratamento envolveu a eliminação de duplicatas, correção de inconsistências e normalização dos dados, preparando-os para análises detalhadas. Na forma detalhada, o script inicia a coleta dos dados acessando o site do Caged, configurando o navegador para selecionar o estado (foi realizado como teste o Rio Grande do Norte para o período de 2008 a 2019) e iterando pelos municípios, anos e meses de interesse, e selecionando a variável de interesse (emprego, ocupação, desemprego, primeiro emprego). Esse processo automatizado inclui a geração e download de arquivos em formato CSV, os quais foram organizados em planilhas Excel e importados para o banco de dados SQL, onde os dados foram estruturados para facilitar consultas e análises. Os resultados apontam que o sistema desenvolvido utilizando Selenium e PyAutoGUI é eficaz e possibilita a navegação em sites e interações precisas com elementos da página, otimizando o tempo de coleta de um grande volume de dados e garantindo a confiabilidade dos dados extraídos de maneira rápida e consistente. Ademais, o plano apresenta algumas limitações, como a necessidade de expansão do script para outros estados, otimização do tempo de execução e melhorias na robustez do código para lidar com falhas no site do Caged. A ampliação da cobertura geográfica e a flexibilização do sistema para incluir novas variáveis são essenciais para que o projeto atinja seu potencial máximo, proporcionando uma ferramenta abrangente para análise do mercado de trabalho no Brasil. Conclui-se que os avanços deste projeto representam um marco no uso de automação para coleta e análise de dados sobre o mercado de trabalho, possibilitando melhorias na gestão pública por parte dos gestores de políticas públicas, com a elaboração de insights mais eficazes e baseados em dados.

Downloads

Não há dados estatísticos.

Downloads

Publicado

07-01-2025

Edição

Seção

Núcleo 3: Ciências Humanas, Ciências Sociais e Aplicadas, Linguística, Letras e Artes