Que Método Utilizar para Descobrir Padrões em Bases de Dados Temporais?

André Magalhães, BI Manager na Izertis, fala-nos de como Data Mining permite a descoberta de métodos para encontrar padrões e dados interessantes, contrastando diferentes grupos em bases de dados temporais.


By André Magalhães

Data Engineer currently BI Manager at Izertis

Os processos de data mining permitem-nos encontrar métodos para descobrir padrões discriminatórios em bases de dados temporais. Existem vários casos e situações em que tal é particularmente relevante e aplicável.

O Contrast Set Mining baseia-se na descoberta de padrões interessantes contrastando dois ou mais grupos, onde cada padrão é um Contrast Set: um conjunto de pares atributo-valor que diferem bastante na sua distribuição entre os grupos.

Trata-se, por isso, de uma situação mais especializada de modelos de Regras de Associação.

Uma técnica proposta é o Rules for Contrast Sets (RCS) que procura expressar cada contraste encontrado em termos de regras.

O principal propósito do trabalho realizado passou por estender esta abordagem a uma tarefa de Data Mining Temporal.

Para tal, desenvolveu-se um conjunto de padrões específicos para capturar as alterações estatisticamente relevantes ao longo da linha temporal estabelecida.

Para averiguar a precisão da proposta e a sua capacidade de encontrar informação relevante, esta foi aplicada em dois conjuntos de dados distintos:

  • Um com a performance estatística dos jogadores da NBA desde a década de 40 até 2009 para compreender a evolução das diferenças posicionais ao longo do tempo em termos de contributo ao jogo;
  • Um outro, recaiu sobre o mercado laboral com dados recolhidos pelo Ministério do Trabalho de 1986 até 2009 com o intuito de encontrar padrões discriminatórios entre géneros e como estes se foram alterando com o decorrer dos anos.

No primeiro caso, foi possível averiguar, de forma evidente, as tendências atuais do jogo: maior capacidade de jogo exterior por parte de todos os atletas, contribuição individual mais diferenciada em cada posição e claro aumento da eficácia sobretudo nas posições interiores nos últimos anos.

No segundo caso, concluiu-se que fatores como a educação superior assumiam maior prevalência no sexo masculino na década de 80, alterando-se, depois, no novo milénio, para o sexo feminino e com posição cada vez mais dominante.

Foi também possível verificar diferenças entre os sexos, sobretudo nos maiores percentis salariais, que ainda são uma realidade presente.

Últimos artigos

IoT

Porque é que uma smart city precisa de um data center smart?

IoT

O Futuro da Conectividade na E-Redes, Fidelidade e EPAL.