Sejam bem vindos a mais um post de data science e machine learning, na primeira parte dessa postagem vamos tentar entender um pouco mais sobre aprendizagem supervisionada e o algoritmo de Naive Bayes. E no final do post vai ter uma suspres, para quem gosta de ver como funciona o processo de fazer uma modelagem de dados e treinamento de um modelo.
Ressaltando um pouco o assunto da primeira postagem do tópico de data science, a aprendizagem supervisionada é feita com base nos conjuntos de dados rotulados, ou seja, a máquina vai tentar encontrar uma função capaz de predizer rótulos desconhecidos com base nas características que os dados vão possuir. Podendo assumir dois tipos de abordagens, classificação e regressão.
Suponha os seguintes dados da tabela:
Qual será a minha etiqueta de acordo com as probabilidades que podem ocorrer de SIM e NÃO. Com base nas 3 entradas que vou possuir (CHUVOSO, AMENO, ALTA ) ?
Para acharmos essa solução iremos aplicar o teorema de Bayes.
Primeiramente vamos criar uma tabela de frequência para a coluna de TEMPO:
Aqui vamos pontuar dentro da nossa tabela de frequência, a frequência de sim e não para cada um dos atributos da coluna tempo.
Ressaltando um pouco o assunto da primeira postagem do tópico de data science, a aprendizagem supervisionada é feita com base nos conjuntos de dados rotulados, ou seja, a máquina vai tentar encontrar uma função capaz de predizer rótulos desconhecidos com base nas características que os dados vão possuir. Podendo assumir dois tipos de abordagens, classificação e regressão.
Classificação: quando queremos fazer o mapeamento das caracteŕistcas da entrada dos dados para rótulos de saídas. Esse conjunto pode ser utilizado para classificar uma espécie de planta e etc.
Primeiramente vamos falar sobre o classificador probabilístico Naive Bayes, um classificador Naive Bayes é um modelo de aprendizagem de máquina baseado no teorema de Bayes que é usado para calcular a probabilidade de um evento dado que outro evento já ocorreu. Em suma pode se dizer, que é um modelo que cria tabelas probabilísticas. Sem mais delongas, vamos atendrar nesse mundo da matemática para entendermos melhor esse algoritmo.Regressão: quando queremos fazer o mapeamento das caracteŕistcas da entrada dos dados para uma saída contínua, ou seja, retorna uma valor real e não uma etiqueta. Estes valores reais podem ser o valor de um apartamento com base em suas caracteŕisticas e etc.
Seja Z um espaço amostral e consideramos dois eventos, A e B. E tendo o seguinte formato P(A | B). Isso indica a probabilidade condicional do evento A, uma vez que B tenha ocorrido. O teorema de Bayes pode ser escrita matematicamente dessa forma:
Onde temos que :
Isso que dizer que podemos encontrar a probabilidade de A acontecer, dado que B ocorreu. Isso implica que a presença de um determinado recurso ou característica não irá afetar o outro. Assumindo que A = label ou etiqueta e B = features ou recursos.- P(A | B) é a probabilidade posterior da classe (etiqueta) dado preditor (atributo).
- P(A) é a probabilidade anterior da classe.
- P(B|A) é a verossimilhança a qual é a probabilidade do preditor dada a classe.
- P(B) é a probabilidade anterior do preditor.
Suponha os seguintes dados da tabela:
Qual será a minha etiqueta de acordo com as probabilidades que podem ocorrer de SIM e NÃO. Com base nas 3 entradas que vou possuir (CHUVOSO, AMENO, ALTA ) ?
Para acharmos essa solução iremos aplicar o teorema de Bayes.
Primeiramente vamos criar uma tabela de frequência para a coluna de TEMPO:
Aqui vamos pontuar dentro da nossa tabela de frequência, a frequência de sim e não para cada um dos atributos da coluna tempo.
O próximo passo é a criação de uma tabela de verossimilhança ou probabilística, de acordo com o que foi montado com a tabela de frequência.
Com base nisso iremos montar as demais tableas.
Com base nessas tabelas de probabilidade montada, agora podemos resolver o problema de achar a etiqueta de acordo com as 3 entradas que vou possuir (CHUVOSO, AMENO, ALTA ).
Com isso temos:
P(SIM| X ) = 0.09375 / 0.03703 + 0.09375 = 0.71
P(NÃO|X) = 1 - 0.71 = 0.29
Logo descobrimos que o label a ser predito com base nas suas features é SIM.
Com base nessas informações sobre o algoritmo de Bayes, espero que você tenha compreendido um pouco mais sobre o mundo de data science. No link a seguir o repo-naive-bayes é um repositório sobre uma aplicação de data science. Com os seguintes tópicos abordados EDA (Análise Exploratória de Dados), Pré-processamento dos dados e o treinamento de um modelo de aprendizagem de máquina. Espero que tenham gostado e até a próxima galera.
P(SIM| X ) = 0.09375 / 0.03703 + 0.09375 = 0.71
P(NÃO|X) = 1 - 0.71 = 0.29
Logo descobrimos que o label a ser predito com base nas suas features é SIM.
Com base nessas informações sobre o algoritmo de Bayes, espero que você tenha compreendido um pouco mais sobre o mundo de data science. No link a seguir o repo-naive-bayes é um repositório sobre uma aplicação de data science. Com os seguintes tópicos abordados EDA (Análise Exploratória de Dados), Pré-processamento dos dados e o treinamento de um modelo de aprendizagem de máquina. Espero que tenham gostado e até a próxima galera.