Clusterização de dados K-Means na biblioteca scikit-learn

A clusterização de dados é uma técnica que visa fazer agrupamentos automáticos de dados, levando em consideração o grau de semelhança, tem por objetivo agrupar através de aprendizado não supervisionado casos de uma base em k grupos, também denominados clusters, a classificação de dados surgiu com a necessidade de separar os dados em determinados grupos com semelhanças de atributos.

Existem diferentes formas de realizar a clusterização de dados, o scikit-learn por exemplo, é uma biblioteca para a linguagem python que disponibiliza de vários algoritmos para clusterização de dados, um dos mais conhecidos é o algoritmo K-Means.

Antes de iniciar a exemplificação do funcionamento do algoritmo, deve-se compreender alguns termos.

  • Cluster: Cluster ou grupos, são grupos de entidades com as mesmas características.
  • Centroide: Podemos definir centroide como centro de cada cluster/grupo.
  • Ponto: Ponto pode ser definido como um conjunto de dados.

Algoritmo K-Means

Este algoritmo é capaz de realizar o treinamento de um modelo para fazer o agrupamento de objetos, ele trabalha com processos de similaridade, ou seja, a principal ideia é encontrar itens semelhantes um com os outros, e mais distintos possíveis dentre os membros de outros clusters/grupos de acordo com seus atributos.

Funcionamento do algoritmo K-Means

O funcionamento do algoritmo é composto por cálculos de distância e média dos pontos até os centroides para poder definir uma posição clara entre os grupos. Vamos representar o funcionamento do algoritmo em 3 passos:

1° Passo: Inicializar os centroides de forma aleatória:

O algoritmo inicia os centroides de forma aleatória, começando de uma ponta até o centro do cluster, de acordo com que o algoritmo é executado.

Figura 1 – Inicialização dos centroides

2° Passo: Para cada ponto na base de dados, calcular a distância para cada centroide e associar ao que estiver mais perto:

Neste passo o algoritmo visa calcular para cada ponto na base de dados a distância entre todos os centroides, ao realizar o cálculo de distância, o algoritmo atribui o ponto ao centroide que possuir uma menor distância.O cálculo de distância é executado para todos os pontos mais de uma vez, em conjunto com os próximos passos, e cada ponto pode pertencer a um cluster diferente conforme o refinamento dos processos do algoritmo.

Figura 2 – Cálculo da distancia entre os centroides

3° Passo: Cálculo da média dos pontos relacionados a cada centroide, definição de um novo centroide (repetição das etapas 2 e 3):

Nesta etapa é realizado o cálculo da média dos pontos ligados aos seus respectivos centroides, o cálculo da média é feito para definir uma nova posição do centroide, em conjunto com isso é realizado um processo repetitivo entre as etapas 2 e 3 para poder fazer a nova definição dos centroides, com objetivo de direcioná-los mais ao centro do cluster, e será realocado os pontos que estiverem mais próximos de outros clusters. O algoritmo finaliza o processo quando não possuir mais elementos para fazer a atualização.

Figura 3 Cálculo da média dos pontos em cada centroide

Exemplo de utilização do K-Means

Visando um cenário em que os dados são de um grupo de pessoas com os respectivos salários e idades, temos uma base populada de dados em que os grupos/clusters estão misturados, para realizar a clusterização destes dados pode-se aplicar três os passos do algoritmo.

Primeiramente deve-se inicializar os centroides.

Figura 4 Inicialização dos centroides

Após a inicialização temos o processo de realizar o cálculo de distância e atribuir os pontos aos respectivos centroides.

Figura 5 – Cálculo de distancia e atribuição de pontos aos centroides

Por fim são calculadas as médias dos pontos relacionados a cada centroide, redefinido a posição dos centroides e executados os passos 2 e 3 até finalizar o algoritmo.

Figura 6 – Cálculo de médias e redefinição dos centroides

Assim tem-se as pessoas com mais idade e um melhor salário representadas pela cor azul, pessoas com mais idade e um baixo salário representadas na cor vermelha, e pessoas novas com um baixo salário representadas na cor verde.

K-Means na prática

Primeiramente é necessário importar a biblioteca.

from sklearn.cluster import KMeans import numpy as np

A implementação mais básica do k-means que contém um vetor [X] que contém os pontos amostrados. O objetivo é classificar os pontos amostrados em clusters indicados pela variável K.

X = np.array([[1, 2], [1, 4], [1, 0],[4, 2], [4, 4], [4, 0]]) kmeans = KMeans(n_clusters=2, random_state=0).fit(X) kmeans.labels_
array([0, 0, 0, 1, 1, 1])
kmeans.predict([[0, 0], [4, 4]])
array([0, 1])
kmeans.cluster_centers_
array([[1., 2.], [4., 2.]])

CONCLUSÃO

Compreender o processo de um algoritmo de clusterização de dados que atua através de aprendizado não supervisionado, nos permite atingir resultados mais precisos.

O funcionamento do algoritmo foi apresentado por meio dos passos, para melhor entender a estrutura em que o algoritmo K-Means trabalha, e facilitar a visualização da modificação na estrutura dos dados.

Para implementar o algoritmo em um sistema, pode ser necessário a integração com outras bibliotecas, que possibilitam a criação e visualização de novas funcionalidades.

REFERÊNCIAS

https://lamfo-unb.github.io/2017/10/05/Introducao_basica_a_clusterizacao/

https://www.alura.com.br/artigos/agrupando-dados-com-python

https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sagemaker-dg.pdf#algo-kmeans-tech-notes

https://www.devmedia.com.br/data-mining-na-pratica-algoritmo-k-means/4584

Autor: Guilherme Zimmer De Gasperi

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *