A clusterização de dados é uma técnica que visa fazer agrupamentos automáticos de dados, levando em consideração o grau de semelhança, tem por objetivo agrupar através de aprendizado não supervisionado casos de uma base em k grupos, também denominados clusters, a classificação de dados surgiu com a necessidade de separar os dados em determinados grupos com semelhanças de atributos.
Existem diferentes formas de realizar a clusterização de dados, o scikit-learn por exemplo, é uma biblioteca para a linguagem python que disponibiliza de vários algoritmos para clusterização de dados, um dos mais conhecidos é o algoritmo K-Means.
Continue lendo “Clusterização de dados K-Means na biblioteca scikit-learn”