By André Magalhães
Data Engineer currently BI Manager at Izertis
Os processos de data mining permitem-nos encontrar métodos para descobrir padrões discriminatórios em bases de dados temporais. Existem vários casos e situações em que tal é particularmente relevante e aplicável.
O Contrast Set Mining baseia-se na descoberta de padrões interessantes contrastando dois ou mais grupos, onde cada padrão é um Contrast Set: um conjunto de pares atributo-valor que diferem bastante na sua distribuição entre os grupos.
Trata-se, por isso, de uma situação mais especializada de modelos de Regras de Associação.
Uma técnica proposta é o Rules for Contrast Sets (RCS) que procura expressar cada contraste encontrado em termos de regras.
O principal propósito do trabalho realizado passou por estender esta abordagem a uma tarefa de Data Mining Temporal.
Para tal, desenvolveu-se um conjunto de padrões específicos para capturar as alterações estatisticamente relevantes ao longo da linha temporal estabelecida.
Para averiguar a precisão da proposta e a sua capacidade de encontrar informação relevante, esta foi aplicada em dois conjuntos de dados distintos:
- Um com a performance estatística dos jogadores da NBA desde a década de 40 até 2009 para compreender a evolução das diferenças posicionais ao longo do tempo em termos de contributo ao jogo;
- Um outro, recaiu sobre o mercado laboral com dados recolhidos pelo Ministério do Trabalho de 1986 até 2009 com o intuito de encontrar padrões discriminatórios entre géneros e como estes se foram alterando com o decorrer dos anos.
No primeiro caso, foi possível averiguar, de forma evidente, as tendências atuais do jogo: maior capacidade de jogo exterior por parte de todos os atletas, contribuição individual mais diferenciada em cada posição e claro aumento da eficácia sobretudo nas posições interiores nos últimos anos.
No segundo caso, concluiu-se que fatores como a educação superior assumiam maior prevalência no sexo masculino na década de 80, alterando-se, depois, no novo milénio, para o sexo feminino e com posição cada vez mais dominante.
Foi também possível verificar diferenças entre os sexos, sobretudo nos maiores percentis salariais, que ainda são uma realidade presente.