Tutorial de clusterização K-Means com MATLAB

Escrito por damon verial Google | Traduzido por joao marcos padua filho
  • Compartilhar
  • Tweetar
  • Compartilhar
  • Pin
  • E-mail
Tutorial de clusterização K-Means com MATLAB
Você pode separar seus dados a partir de critérios pessoais (Hemera Technologies/AbleStock.com/Getty Images)

Você pode frequentemente querer separar seus dados em grupos baseados em alguns níveis de proximidade e semelhança. Entretanto, a decisão sobre como realmente fazer isso é muito subjetiva, o que dá margem a críticas de outros pesquisadores. A solução para esse problema é a clusterização pelo k-means, um algoritmo que faz automaticamente a divisão de seus dados. É um tipo de aprendizado de máquina que gera uma divisão de dados ideal sob uma série de circunstâncias. O MATLAB oferece uma função de clusterização k-means que pode ser facilmente adaptada a seus dados.

Nível de dificuldade:
Moderado

Outras pessoas estão lendo

Instruções

  1. 1

    Carregue seus dados em forma de matriz para o MATLAB. Localize o arquivo de dados no computado e anote seu nome (ex. datafile.dat). Use o comando “[dat, vars, cases] = tblread(filename)” em que “filename” é o nome do arquivo que contém seus dados, como o exemplo mostrado. Pressione "Enter" e a variável "dat" será uma matriz com todos os seus dados.

  2. 2

    Decida um número de modos para o algoritmo trabalhar. Esse número será exatamente igual ao número de grupos criados. Use as propriedades de seus dados e o problema para decidir em quantos grupos deseja que seus dados sejam divididos.

  3. 3

    Defina como o algoritmo do k-means computará a distância entre os pontos. Existem dois métodos comuns para o cálculo da distância com esse algoritmo: Método Euclidiano e Correlacional. O Euclidiano observa a distância física entre os pontos que você representou graficamente no plano cartesiano. A distância Correlacional considera a variância dos dados e pode ser mais apropriada quando estiver trabalhando com dados que tenham uma distribuição conhecida (como uma distribuição normal).

  4. 4

    Execute o algoritmo do k-means. Use o comando “ind = kmeans(dat, g, ‘distance’)” em que “g” representa o número de clusters que deseja e “distance” é o tipo de distância que você quer que o algoritmo k-means utilize: “sqEuclidean” para distância Euclidiana e “correlation” para distancia correlacional.

Não perca

Filtro:
  • Geral
  • Artigos
  • Slides
  • Vídeos
Mostrar:
  • Mais relevantes
  • Mais lidos
  • Mais recentes

Nenhum artigo disponível

Nenhum slide disponível

Nenhum vídeo disponível