{"id":117537,"date":"2021-02-05T12:33:32","date_gmt":"2021-02-05T15:33:32","guid":{"rendered":"https:\/\/fluency.io\/br\/blog\/?p=2435"},"modified":"2023-07-26T15:54:11","modified_gmt":"2023-07-26T18:54:11","slug":"como-comecar-data-science","status":"publish","type":"post","link":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/","title":{"rendered":"Data Science: 8 passos para come\u00e7ar do zero"},"content":{"rendered":"\n<p>Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribuem de maneira significativa para a cria\u00e7\u00e3o de um planejamento ideal baseado na ci\u00eancia de dados. Mas como desenvolv\u00ea-lo na pr\u00e1tica?&nbsp;<\/p>\n\n\n\n<p>Imagine que voc\u00ea trabalha em uma startup do setor imobili\u00e1rio e um dos objetivos de sua empresa \u00e9 agilizar o c\u00e1lculo de valores de alugu\u00e9is para os seus clientes, deixando os n\u00fameros mais precisos. Para isso, ser\u00e1 necess\u00e1ria uma calculadora de alugu\u00e9is, como <a href=\"https:\/\/mkt.quintoandar.com.br\/quanto-cobrar-de-aluguel\/\" target=\"_blank\" rel=\"noreferrer noopener\">esta<\/a>, encontrada na plataforma do <a href=\"https:\/\/www.quintoandar.com.br\/\" target=\"_blank\" rel=\"noreferrer noopener\">Quinto Andar<\/a>.&nbsp;<\/p>\n\n\n\n<p>O objetivo deste artigo \u00e9 descrever de maneira clara como come\u00e7ar do zero um <a href=\"https:\/\/fluency.io\/br\/blog\/projeto-data-science\/\" data-type=\"post\" data-id=\"2367\" target=\"_blank\" rel=\"noreferrer noopener\">projeto de Data Science<\/a>. Este \u00e9 o exemplo pr\u00e1tico utilizado no <a href=\"https:\/\/fluency.io\/br\/blog\/curso\/data-science\/\" data-type=\"page\" data-id=\"504\" target=\"_blank\" rel=\"noreferrer noopener\">Curso Intensivo de Data Science<\/a> da Awari para demonstrar aos alunos um projeto completo, desde a coleta de dados at\u00e9 a transforma\u00e7\u00e3o de todo o procedimento em um web app utiliz\u00e1vel por qualquer pessoa na internet.<\/p>\n\n\n\n<p>Vamos aprender juntos?<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"1-entendimento-de-um-problema\">1. Entendimento de um problema<\/h2>\n\n\n\n<p>O primeiro passo para desenvolver um projeto de ci\u00eancia de dados \u00e9 a compreens\u00e3o do problema a ser resolvido. Neste caso, de acordo com a problem\u00e1tica mencionada acima, construiremos uma calculadora de im\u00f3veis durante as aulas. Em termos mais espec\u00edficos, podemos dizer que nossa tarefa \u00e9: <strong>utilizar caracter\u00edsticas (<\/strong><strong><em>features<\/em><\/strong><strong>) de im\u00f3veis como \u00e1rea, n\u00famero de quartos, n\u00famero de banheiros, regi\u00e3o da cidade onde se encontra (entre outras) para prever pre\u00e7os de alugu\u00e9is condizentes com o que \u00e9 praticado no mercado atualmente de maneira automatizada.&nbsp;<\/strong><\/p>\n\n\n\n<p>O projeto ser\u00e1 desenvolvido do come\u00e7o ao fim das aulas e, a partir dele, vamos demonstrar diversas t\u00e9cnicas utilizadas em todas as etapas de um projeto de ci\u00eancia de dados. Durante o curso, utilizaremos da linguagem de programa\u00e7\u00e3o Python.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"2-compreensao-dos-dados\">2. Compreens\u00e3o dos dados<\/h2>\n\n\n\n<p>Quando precisamos resolver um problema ou criar uma aplica\u00e7\u00e3o com base em Data Science, nossa mat\u00e9ria prima s\u00e3o os dados. Muitas vezes, quando participamos de cursos na \u00e1rea, nos deparamos com bases de dados surgidas milagrosamente em nossas m\u00e3os.&nbsp;<\/p>\n\n\n\n<p>Na vida real de um cientista de dados, por\u00e9m, isso n\u00e3o \u00e9 comum.&nbsp;<\/p>\n\n\n\n<p>A depender do problema, temos acesso a dados p\u00fablicos por meio de bases ou de APIs. Dentro de uma empresa com dados organizados, por exemplo, \u00e9 poss\u00edvel fazer consultas nas bases de dados internas.&nbsp;<\/p>\n\n\n\n<p><em>Mas e se n\u00e3o tivermos dados?&nbsp;<\/em><\/p>\n\n\n\n<p>No caso da calculadora de im\u00f3veis, utilizaremos o procedimento de Web Scraping, ou seja, criaremos uma esp\u00e9cie de rob\u00f4 que nos permite navegar por p\u00e1ginas especializadas da web selecionando as informa\u00e7\u00f5es desejadas sobre os im\u00f3veis. Assim, voc\u00ea n\u00e3o s\u00f3 aprender\u00e1 como conectar-se a APIs ou como construir uma base para o seu problema a partir de dados j\u00e1 disponibilizados por sua empresa, mas tamb\u00e9m saber\u00e1 o que fazer quando n\u00e3o possuir esses dados dispon\u00edveis e organizados, tornando-se respons\u00e1vel pela cria\u00e7\u00e3o da base de dados.<\/p>\n\n\n\n<p>A partir desta etapa, tamb\u00e9m usaremos bibliotecas de Data Science, que s\u00e3o ferramentas utilizadas para o processamento, tradu\u00e7\u00e3o, an\u00e1lise e cria\u00e7\u00e3o de gr\u00e1ficos com base nos dados obtidos.&nbsp;<\/p>\n\n\n\n<p>No geral, cada biblioteca tem uma fun\u00e7\u00e3o espec\u00edfica. <strong>Para essa etapa, as op\u00e7\u00f5es s\u00e3o: <\/strong>requests, json, beautifulsoup, pandas.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"3-limpeza-dos-dados\">3. Limpeza dos dados<\/h2>\n\n\n\n<p>Depois de realizar o processo de raspagem da web e transformar as informa\u00e7\u00f5es coletadas em uma base organizada, iniciaremos um procedimento de limpeza de dados.<\/p>\n\n\n\n<p>Um dos primeiros problemas que precisamos lidar em um projeto de Data Science s\u00e3o os dados faltantes. Imagine que fizemos a raspagem de um site com diversos im\u00f3veis visando obter a \u00e1rea, o n\u00famero de quartos, o n\u00famero de banheiros, a regi\u00e3o da cidade onde o im\u00f3vel se encontra e seu respectivo valor de aluguel. Quando concluirmos essa etapa, nem sempre os im\u00f3veis s\u00e3o cadastrados no site com todas essas informa\u00e7\u00f5es.&nbsp;<\/p>\n\n\n\n<p>Soma-se a isso o fato de que os algoritmos n\u00e3o est\u00e3o preparados para lidar com dados que n\u00e3o estejam coletados.&nbsp;<\/p>\n\n\n\n<p>Precisamos de uma estrat\u00e9gia!&nbsp;<\/p>\n\n\n\n<p>O que faremos?&nbsp;<\/p>\n\n\n\n<p>Excluiremos os im\u00f3veis cujos dados n\u00e3o est\u00e3o completos? Pode ser!<\/p>\n\n\n\n<p>E se tivermos muitos dados faltantes? Alguns im\u00f3veis, por exemplo, n\u00e3o possuem o n\u00famero de quartos. Se isso acontecer, podemos reduzir demais nossa base de dados. Uma boa alternativa \u00e9 o preenchimento dos dados faltantes.&nbsp;<\/p>\n\n\n\n<p>Mas como faremos isso? Alguns pontos devem ser analisados:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Utilizaremos uma m\u00e9dia geral daquela caracter\u00edstica para todos os im\u00f3veis coletados?&nbsp;<\/li><li>Utilizaremos a mediana deste mesmo atributo para preencher os <em>slots<\/em> faltantes?&nbsp;<\/li><li>Ser\u00e1 poss\u00edvel que apartamentos de uma regi\u00e3o sigam uma tend\u00eancia de apresentar uma maior quantidade de quartos do que apartamentos de outras regi\u00f5es?&nbsp;<\/li><li>Seria poss\u00edvel treinar um algoritmo que leve em conta a regi\u00e3o, o tamanho e o valor do aluguel para preencher os dados faltantes da forma mais condizente poss\u00edvel?&nbsp;<\/li><\/ul>\n\n\n\n<p>Valeria a pena o esfor\u00e7o?<\/p>\n\n\n\n<p>Durante as aulas, te ajudaremos a entender cada um desses processos, fazendo com que suas decis\u00f5es em projetos futuros sejam as mais adequadas poss\u00edveis.<\/p>\n\n\n\n<p><strong>Quais bibliotecas poderemos utilizar nesta etapa: <\/strong>numpy<strong>, <\/strong>pandas, entre outras.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"4-geracao-de-graficos\">4. Gera\u00e7\u00e3o de gr\u00e1ficos<\/h2>\n\n\n\n<p>Certo, agora n\u00e3o faltam dados! \u00c9 hora de tentar ganhar uma certa intimidade com nossa base.&nbsp;<\/p>\n\n\n\n<p>Para isso, geraremos alguns gr\u00e1ficos. Desta forma, as colunas, linhas e c\u00e9lulas passar\u00e3o a ser resumidas de maneira visual, facilitando a compreens\u00e3o de poss\u00edveis rela\u00e7\u00f5es entre os dados coletados, que ser\u00e3o encarados como vari\u00e1veis.&nbsp;<\/p>\n\n\n\n<p>O pr\u00f3ximo passo ser\u00e1 procurar correla\u00e7\u00f5es entre essa vari\u00e1veis, especialmente entre as vari\u00e1veis e os pre\u00e7os dos im\u00f3veis coletados. Qual vari\u00e1vel voc\u00ea acha que afeta diretamente o pre\u00e7o de um apartamento?&nbsp;<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Sua localiza\u00e7\u00e3o?<\/li><li>A quantidade de quartos?&nbsp;<\/li><li>Sua \u00e1rea total?&nbsp;&nbsp;<\/li><\/ul>\n\n\n\n<p>Essas s\u00e3o algumas das informa\u00e7\u00f5es obtidas nesta etapa.&nbsp;<\/p>\n\n\n\n<p>Na etapa seguinte, observaremos a distribui\u00e7\u00e3o dos dados coletados.&nbsp;<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Ser\u00e1 que as distribui\u00e7\u00f5es obtidas se aproximam mais de uma distribui\u00e7\u00e3o normal?&nbsp;<\/li><li>Ser\u00e1 que est\u00e3o concentradas em um certo intervalo de valores?&nbsp;<\/li><li>Ser\u00e1 que se concentram em mais de um ponto?<\/li><\/ul>\n\n\n\n<p>Ops! Um aluguel de R$1.000.000,00? Esquisito!<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Ser\u00e1 que temos mais dados assim ou foi um erro de digita\u00e7\u00e3o?&nbsp;<\/li><li>E se n\u00e3o for um erro de digita\u00e7\u00e3o e tivermos outros dados \u201cfora da curva\u201d?&nbsp;<\/li><\/ul>\n\n\n\n<p>Como vamos proceder?<\/p>\n\n\n\n<p>\u00c9 poss\u00edvel que tenhamos que lidar com <em>outliers<\/em> em nosso projeto, que s\u00e3o observa\u00e7\u00f5es que se encontram a uma<strong> dist\u00e2ncia anormal<\/strong> de outros valores em uma amostra aleat\u00f3ria.&nbsp;<\/p>\n\n\n\n<p>Por isso, precisamos compreender os efeitos desses dados em nossos algoritmos e o efeito que os poss\u00edveis tratamentos a esses dados (exclus\u00e3o, por exemplo) tamb\u00e9m podem trazer em nosso modelo final.<br>A depender da distribui\u00e7\u00e3o dos dados mencionada acima, podemos ter que reescal\u00e1-los (adapt\u00e1-los \u00e0 escala logar\u00edtmica, por exemplo) e essas adapta\u00e7\u00f5es podem, de certa forma, suavizar o efeito desses dados \u201cfora da curva\u201d.<\/p>\n\n\n\n<p><strong>Poss\u00edveis bibliotecas para essa etapa: <\/strong>numpy,<strong> <\/strong>pandas, matplotlib, seaborn<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"5-compreendendo-os-algoritmos\">5. Compreendendo os algoritmos<\/h2>\n\n\n\n<p>Em um projeto que lida com dados tabulares, teremos que lidar com dois tipos de vari\u00e1veis: num\u00e9ricas e categ\u00f3ricas.&nbsp;<\/p>\n\n\n\n<p>Com o primeiro tipo de vari\u00e1vel, os algoritmos funcionam bem. Com o segundo, n\u00e3o.&nbsp;<\/p>\n\n\n\n<p>Sim, grande parte dos algoritmos n\u00e3o vai entender que aquele apartamento fica no centro ou na zona norte pois n\u00e3o est\u00e3o preparados para reproduzir dados categ\u00f3ricos.<\/p>\n\n\n\n<p>Para lidar com essa problem\u00e1tica, precisaremos de um pouco mais de manipula\u00e7\u00e3o de dados para que, de alguma forma, possamos transformar essas informa\u00e7\u00f5es em dados num\u00e9ricos, de modo que o algoritmo consiga lidar com elas.&nbsp;<\/p>\n\n\n\n<p>Certo, mas que tipo de transforma\u00e7\u00e3o dever\u00e1 ser aplicada a esses dados?&nbsp;<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Transformaremos cada regi\u00e3o da cidade em um n\u00famero na mesma coluna da base de dados?&nbsp;<\/li><li>Criaremos diversas colunas, cada uma com um nome de regi\u00e3o e utilizaremos 0 e 1 para informar se aquele im\u00f3vel se encontra ou n\u00e3o naquela regi\u00e3o?&nbsp;<\/li><li>Qual seria o impacto de cada uma dessas transforma\u00e7\u00f5es em nossa base de dados? Qual delas afetaria de maneira mais positiva a qualidade das predi\u00e7\u00f5es realizadas por nossos algoritmos?<\/li><\/ul>\n\n\n\n<p>Sim, o tratamento de dados categ\u00f3ricos e suas implica\u00e7\u00f5es tamb\u00e9m ser\u00e1 uma de nossas preocupa\u00e7\u00f5es durante a constru\u00e7\u00e3o de nossa calculadora. Ao final da atividade voc\u00ea compreender\u00e1 o que cada decis\u00e3o a respeito desse quesito representa para seguirmos para a pr\u00f3xima etapa.&nbsp;<\/p>\n\n\n\n<p><strong>Poss\u00edveis bibliotecas para essa etapa: <\/strong>pandas, scikit-learn<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"6-preparacao-das-bases\">6. Prepara\u00e7\u00e3o das bases<\/h2>\n\n\n\n<p>N\u00e3o! O que faremos a seguir \u00e9 deixar a base preparada para o algoritmo que vir\u00e1 a ser usado. De modo geral, queremos criar predi\u00e7\u00f5es que sejam as mais generaliz\u00e1veis que conseguirmos.<\/p>\n\n\n\n<p><em>E o que significa isso?<\/em><\/p>\n\n\n\n<p>Significa que queremos altas taxas de acerto, mas que funcionem n\u00e3o apenas para os dados que temos em m\u00e3os.&nbsp;<\/p>\n\n\n\n<p><em>E como podemos assegurar que isso vai acontecer?<\/em><\/p>\n\n\n\n<p>N\u00e3o vamos assegurar, mas faremos procedimentos que trar\u00e3o uma no\u00e7\u00e3o de qu\u00e3o bem performarmos com dados novos.<\/p>\n\n\n\n<p>Para que isso aconte\u00e7a, \u00e9 necess\u00e1rio uma quebra inicial da base de dados em duas partes. Esse \u00e9 um passo crucial nesse processo, pois n\u00e3o queremos fazer previs\u00f5es\/proje\u00e7\u00f5es utilizando dados j\u00e1 conhecidos para avaliar a performance do algoritmo. N\u00e3o queremos ser profetas do passado!&nbsp;&nbsp;<\/p>\n\n\n\n<p>Dessa maneira, as duas partes ser\u00e3o a base de treino e a base de teste. A primeira fatia deste corte ser\u00e1 a parte em que adaptaremos os par\u00e2metros do algoritmo escolhido at\u00e9 que as m\u00e9tricas de mensura\u00e7\u00e3o de performance estejam boas e o algoritmo esteja adaptado aos dados da melhor forma poss\u00edvel. A segunda ficar\u00e1 intocada, e ser\u00e1 utilizada como se fossem dados novos, desconhecidos pelo algoritmo.&nbsp;<\/p>\n\n\n\n<p>Os pesos, profundidades, n\u00fameros m\u00e1ximos de \u00e1rvores e quaisquer outros par\u00e2metros dos algoritmos n\u00e3o ter\u00e3o utilizado tais dados para a sua adapta\u00e7\u00e3o. Essa fatia de nossa base de dados mostrar\u00e1 a performance de nosso algoritmo com dados desconhecidos testando, dessa forma, a generaliza\u00e7\u00e3o das predi\u00e7\u00f5es ou at\u00e9 mesmo se adaptamos o algoritmo de forma incorreta \u00e0 base de treino.<\/p>\n\n\n\n<p>Agora sim, com as bases separadas, podemos seguir para o pr\u00f3ximo passo.&nbsp;<\/p>\n\n\n\n<p><strong>Poss\u00edveis bibliotecas para essa etapa: <\/strong>pandas, scikit-learn<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"7-criacao-do-modelo-de-base\">7. Cria\u00e7\u00e3o do modelo de base<\/h2>\n\n\n\n<p>Por lidar com a predi\u00e7\u00e3o de <strong>valores de alugu\u00e9is <\/strong>baseados em caracter\u00edsticas de im\u00f3veis, temos um projeto de regress\u00e3o.&nbsp;<\/p>\n\n\n\n<p>Certo! Mas a biblioteca que utilizamos tem v\u00e1rios algoritmos com essa finalidade.&nbsp;<\/p>\n\n\n\n<p><em>Qual devemos usar? Ou melhor, que estrat\u00e9gia devemos utilizar para escolher o modelo?<\/em><\/p>\n\n\n\n<p>Checar os modelos dispon\u00edveis e buscar entender cada um deles para definir qual o melhor a partir de suas caracter\u00edsticas e das caracter\u00edsticas dos nossos dados? \u00c9 uma op\u00e7\u00e3o.<\/p>\n\n\n\n<p>Importar v\u00e1rios modelos de uma vez s\u00f3 e, mesmo sem a compreens\u00e3o de como cada um deles funciona separadamente, escolher o que apresentar a melhor m\u00e9trica relativa a nosso desafio a ser resolvido? \u00c9 outra op\u00e7\u00e3o.<\/p>\n\n\n\n<p>Certo. Encontramos um modelo de base!<\/p>\n\n\n\n<p><em>Mas ser\u00e1 que \u00e9 poss\u00edvel melhorar sua performance ainda mais?<\/em><\/p>\n\n\n\n<p>Sim, os algoritmos possuem par\u00e2metros modific\u00e1veis e podemos verificar o quanto a altera\u00e7\u00e3o desses par\u00e2metros afeta a qualidade de nossas predi\u00e7\u00f5es.&nbsp;<\/p>\n\n\n\n<p><em>Faremos isso manualmente? \u00c9 prov\u00e1vel que n\u00e3o.&nbsp;<\/em><\/p>\n\n\n\n<p>Podemos fazer <em>loops<\/em> (ou utilizar fun\u00e7\u00f5es pr\u00e9-estabelecidas que fa\u00e7am isso por n\u00f3s) para combinar esses par\u00e2metros e verificar qual a configura\u00e7\u00e3o mais se adapta aos dados que temos.&nbsp;<\/p>\n\n\n\n<p>Ap\u00f3s encontrar as configura\u00e7\u00f5es e adaptar nosso algoritmo, utilizaremos a base de teste para que possamos compreender o qu\u00e3o bem nosso algoritmo est\u00e1 performando com dados desconhecidos e, caso esteja funcionando, prosseguiremos para a etapa final.<\/p>\n\n\n\n<p><strong>Poss\u00edveis bibliotecas para essa etapa: <\/strong>scikit learn, xgboost, statsmodels<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"8-deploying\">8. Deploying<\/h2>\n\n\n\n<p>Ok, agora temos nosso modelo e ele est\u00e1 suficientemente calibrado. O que faremos?&nbsp;&nbsp;<\/p>\n\n\n\n<p>\u00c9 no momento que transformamos todo o tratamento realizado nos dados em uma ferramenta utiliz\u00e1vel por outras pessoas que extra\u00edmos o real valor de um projeto de Data Science. Este \u00e9, sem d\u00favidas, outro ponto pouqu\u00edssimo visitado em cursos de ci\u00eancia de dados.<\/p>\n\n\n\n<p>O pr\u00f3ximo passo \u00e9 escolher e refinar o algoritmo de maneira satisfat\u00f3ria. Pode ser que seja nossa fun\u00e7\u00e3o, como cientistas de dados, transformar todo esse processo desenvolvido em Python em algo que pessoas que n\u00e3o programam ou n\u00e3o tenham acesso aos dados que temos possam utilizar.&nbsp;<\/p>\n\n\n\n<p>Em nosso exemplo, faremos uma implementa\u00e7\u00e3o de nosso modelo em forma de um web app, um site com campos em que os usu\u00e1rios preencher\u00e3o com n\u00fameros de quartos, banheiros e zona da cidade. Com esses dados, o aplicativo retornar\u00e1 a estimativa do valor de aluguel que dever\u00e1 ser pago por um im\u00f3vel com as caracter\u00edsticas informadas.<\/p>\n\n\n\n<p>Para isso, salvaremos o modelo criado de modo que possamos import\u00e1-lo posteriormente. Em seguida, citaremos novos arquivos em Python e HTML e trabalharemos na conex\u00e3o entre os campos reservados \u00e0 entrada de dados pelos usu\u00e1rios finais na p\u00e1gina HTML e as fun\u00e7\u00f5es que interpretar\u00e3o os dados e os utilizar\u00e3o para alimentar o modelo salvo. Desta forma, teremos como retorno a predi\u00e7\u00e3o do valor do aluguel demonstrada ao usu\u00e1rio na p\u00e1gina do aplicativo.<\/p>\n\n\n\n<p>Ap\u00f3s a cria\u00e7\u00e3o das conex\u00f5es, o passo final \u00e9 a hospedagem de todo esse processo em um servidor remoto. Para isso, criaremos alguns arquivos auxiliares para instalar as bibliotecas necess\u00e1rias e iniciar o aplicativo quando solicitado.&nbsp;<\/p>\n\n\n\n<p>Por fim, utilizaremos nosso reposit\u00f3rio no GitHub, que contar\u00e1 com todos os arquivos necess\u00e1rios para \u201csubir\u201d nosso web app para o servidor onde ficar\u00e1 hospedado, finalizando assim o processo.&nbsp;<\/p>\n\n\n\n<p><strong>Poss\u00edveis bibliotecas para essa etapa:<\/strong> Pickle, Flask e Stremalit&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"comece-sua-carreira-em-ciencia-de-dados\">Comece sua carreira em Ci\u00eancia de Dados! <\/h2>\n\n\n\n<p>Um projeto completo na <a href=\"https:\/\/fluency.io\/br\/blog\/area-data-science\/\" data-type=\"post\" data-id=\"2482\" target=\"_blank\" rel=\"noreferrer noopener\">\u00e1rea de ci\u00eancia de dados<\/a> envolve muitos processos al\u00e9m da aplica\u00e7\u00e3o de algoritmos em bases de dados pr\u00e9-processadas. Muito do hype (e por consequ\u00eancia, dos cursos) em torno da ci\u00eancia de dados esteja em cima da aplica\u00e7\u00e3o dos algoritmos e da modelagem dos dados, por ser a parte do processo conceitualmente mais complexa.<\/p>\n\n\n\n<p>Se nos atentarmos a esta <a href=\"https:\/\/www.forbes.com\/sites\/gilpress\/2016\/03\/23\/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says\/#2ed44d746f63\" target=\"_blank\" rel=\"noreferrer noopener\">pesquisa<\/a>, por\u00e9m, veremos que a coleta e a manipula\u00e7\u00e3o de dados s\u00e3o respons\u00e1veis, respectivamente por 19 e 60% do tempo de trabalho dos <a href=\"https:\/\/fluency.io\/br\/blog\/guia-cientista-de-dados\/\" data-type=\"post\" data-id=\"810\" target=\"_blank\" rel=\"noreferrer noopener\">cientistas de dados<\/a>, sendo as atividades que consomem maior tempo desses profissionais.&nbsp;<\/p>\n\n\n\n<p>E n\u00e3o \u00e9 por acaso. Embora conceitualmente mais simples, esses procedimentos s\u00e3o trabalhosos e respons\u00e1veis por trazer ao cientista de dados o material que vai alimentar os algoritmos.&nbsp;<\/p>\n\n\n\n<p>Al\u00e9m disso, os algoritmos s\u00f3 ter\u00e3o resultados excelentes se tivermos dados representativos para o problema que queremos resolver. E essa quest\u00e3o \u00e9 resolvida na coleta e na manipula\u00e7\u00e3o (com o processo de <em>feature engineering<\/em>, por exemplo).&nbsp;<\/p>\n\n\n\n<p>Por isso, todas as etapas relativas a um <a href=\"https:\/\/fluency.io\/br\/blog\/projeto-data-science\/\" data-type=\"post\" data-id=\"2367\" target=\"_blank\" rel=\"noreferrer noopener\">projeto de ci\u00eancia de dados<\/a> s\u00e3o importantes e devem ser realizadas da melhor forma poss\u00edvel.<\/p>\n\n\n\n<p>Na Awari, desenvolveremos um projeto do in\u00edcio ao fim, para certificar que nossos alunos estejam cientes da maioria dos passos a serem dados em projetos de ci\u00eancia de dados, n\u00e3o apenas os mais conhecidos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"quer-se-tornar-um-cientista-de-dados-conheca-a-awari\"><strong>? Quer se tornar um cientista de dados? Conhe\u00e7a a Awari!<\/strong><\/h3>\n\n\n\n<p>A Awari \u00e9 uma <strong>plataforma completa<\/strong> com mentorias individuais, cursos com aulas ao vivo e suporte de carreira para voc\u00ea dar seu pr\u00f3ximo passo profissional.<\/p>\n\n\n\n<p>Conhe\u00e7a<a href=\"https:\/\/fluency.io\/br\/blog\/#categorias\" target=\"_blank\" rel=\"noreferrer noopener\"> nossos cursos<\/a>, que v\u00e3o desde Trilhas de<a href=\"https:\/\/fluency.io\/br\/blog\/trilha-de-ciencia-de-dados\/\" target=\"_blank\" rel=\"noreferrer noopener\"> Data Science<\/a>,<a href=\"https:\/\/fluency.io\/br\/blog\/trilha-de-gestao-de-produtos\/\" target=\"_blank\" rel=\"noreferrer noopener\"> Gest\u00e3o de Produtos<\/a>,<a href=\"https:\/\/fluency.io\/br\/blog\/trilha-de-design\/\" target=\"_blank\" rel=\"noreferrer noopener\"> Design<\/a> e<a href=\"https:\/\/fluency.io\/br\/blog\/trilha-de-programacao\/\" target=\"_blank\" rel=\"noreferrer noopener\"> Programa\u00e7\u00e3o<\/a>. Saiba mais sobre a nossa jornada personalizada e materiais complementares feitos por especialistas no mercado.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribuem de maneira significativa para a cria\u00e7\u00e3o de um planejamento ideal baseado na ci\u00eancia de dados. Mas como desenvolv\u00ea-lo na pr\u00e1tica?&nbsp; Imagine que voc\u00ea trabalha em uma [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":122057,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":[186],"meta":{"inline_featured_image":false,"footnotes":""},"categories":[229],"tags":[],"trilha":[],"class_list":["post-117537","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-skills","format-artigos"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.4 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Data Science: 8 passos para come\u00e7ar do zero - Fluency.io Brasil<\/title>\n<meta name=\"description\" content=\"Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribu...\" \/>\n<meta name=\"robots\" content=\"noindex, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Data Science: 8 passos para come\u00e7ar do zero - Fluency.io Brasil\" \/>\n<meta property=\"og:description\" content=\"Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribu...\" \/>\n<meta property=\"og:url\" content=\"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/\" \/>\n<meta property=\"og:site_name\" content=\"Fluency.io Brasil\" \/>\n<meta property=\"article:published_time\" content=\"2021-02-05T15:33:32+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-07-26T18:54:11+00:00\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"kaue\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. tempo de leitura\" \/>\n\t<meta name=\"twitter:data2\" content=\"14 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/\"},\"author\":{\"name\":\"kaue\",\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/#\\\/schema\\\/person\\\/7b3b2b50ba17b7f2ad0cce0a40bfa00a\"},\"headline\":\"Data Science: 8 passos para come\u00e7ar do zero\",\"datePublished\":\"2021-02-05T15:33:32+00:00\",\"dateModified\":\"2023-07-26T18:54:11+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/\"},\"wordCount\":2743,\"commentCount\":0,\"image\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#primaryimage\"},\"thumbnailUrl\":\"\",\"articleSection\":[\"Skills\"],\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/\",\"url\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/\",\"name\":\"Data Science: 8 passos para come\u00e7ar do zero - Fluency.io Brasil\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#primaryimage\"},\"thumbnailUrl\":\"\",\"datePublished\":\"2021-02-05T15:33:32+00:00\",\"dateModified\":\"2023-07-26T18:54:11+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/#\\\/schema\\\/person\\\/7b3b2b50ba17b7f2ad0cce0a40bfa00a\"},\"description\":\"Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribu...\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#breadcrumb\"},\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#primaryimage\",\"url\":\"\",\"contentUrl\":\"\",\"width\":2560,\"height\":1700},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/blog\\\/como-comecar-data-science\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"In\u00edcio\",\"item\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Data Science: 8 passos para come\u00e7ar do zero\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/#website\",\"url\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/\",\"name\":\"Fluency.io Brasil\",\"description\":\"\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-BR\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/#\\\/schema\\\/person\\\/7b3b2b50ba17b7f2ad0cce0a40bfa00a\",\"name\":\"kaue\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/bdd3958fa53019cfd8f789c0a49a730e7ba40a1d20cb42c9ced7646285842479?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/bdd3958fa53019cfd8f789c0a49a730e7ba40a1d20cb42c9ced7646285842479?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/bdd3958fa53019cfd8f789c0a49a730e7ba40a1d20cb42c9ced7646285842479?s=96&d=mm&r=g\",\"caption\":\"kaue\"},\"url\":\"https:\\\/\\\/homolog.fluency.io\\\/br\\\/author\\\/kaue\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Data Science: 8 passos para come\u00e7ar do zero - Fluency.io Brasil","description":"Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribu...","robots":{"index":"noindex","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"og_locale":"pt_BR","og_type":"article","og_title":"Data Science: 8 passos para come\u00e7ar do zero - Fluency.io Brasil","og_description":"Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribu...","og_url":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/","og_site_name":"Fluency.io Brasil","article_published_time":"2021-02-05T15:33:32+00:00","article_modified_time":"2023-07-26T18:54:11+00:00","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"kaue","Est. tempo de leitura":"14 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#article","isPartOf":{"@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/"},"author":{"name":"kaue","@id":"https:\/\/homolog.fluency.io\/br\/#\/schema\/person\/7b3b2b50ba17b7f2ad0cce0a40bfa00a"},"headline":"Data Science: 8 passos para come\u00e7ar do zero","datePublished":"2021-02-05T15:33:32+00:00","dateModified":"2023-07-26T18:54:11+00:00","mainEntityOfPage":{"@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/"},"wordCount":2743,"commentCount":0,"image":{"@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#primaryimage"},"thumbnailUrl":"","articleSection":["Skills"],"inLanguage":"pt-BR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/","url":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/","name":"Data Science: 8 passos para come\u00e7ar do zero - Fluency.io Brasil","isPartOf":{"@id":"https:\/\/homolog.fluency.io\/br\/#website"},"primaryImageOfPage":{"@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#primaryimage"},"image":{"@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#primaryimage"},"thumbnailUrl":"","datePublished":"2021-02-05T15:33:32+00:00","dateModified":"2023-07-26T18:54:11+00:00","author":{"@id":"https:\/\/homolog.fluency.io\/br\/#\/schema\/person\/7b3b2b50ba17b7f2ad0cce0a40bfa00a"},"description":"Muita gente concorda que a melhor forma de aprender Data Science \u00e9 a partir de um projeto real na \u00e1rea. Nesse contexto, h\u00e1 uma s\u00e9rie de etapas que contribu...","breadcrumb":{"@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/"]}]},{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#primaryimage","url":"","contentUrl":"","width":2560,"height":1700},{"@type":"BreadcrumbList","@id":"https:\/\/homolog.fluency.io\/br\/blog\/como-comecar-data-science\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"In\u00edcio","item":"https:\/\/homolog.fluency.io\/br\/"},{"@type":"ListItem","position":2,"name":"Data Science: 8 passos para come\u00e7ar do zero"}]},{"@type":"WebSite","@id":"https:\/\/homolog.fluency.io\/br\/#website","url":"https:\/\/homolog.fluency.io\/br\/","name":"Fluency.io Brasil","description":"","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/homolog.fluency.io\/br\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR"},{"@type":"Person","@id":"https:\/\/homolog.fluency.io\/br\/#\/schema\/person\/7b3b2b50ba17b7f2ad0cce0a40bfa00a","name":"kaue","image":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/secure.gravatar.com\/avatar\/bdd3958fa53019cfd8f789c0a49a730e7ba40a1d20cb42c9ced7646285842479?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/bdd3958fa53019cfd8f789c0a49a730e7ba40a1d20cb42c9ced7646285842479?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/bdd3958fa53019cfd8f789c0a49a730e7ba40a1d20cb42c9ced7646285842479?s=96&d=mm&r=g","caption":"kaue"},"url":"https:\/\/homolog.fluency.io\/br\/author\/kaue\/"}]}},"_links":{"self":[{"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/posts\/117537","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/comments?post=117537"}],"version-history":[{"count":1,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/posts\/117537\/revisions"}],"predecessor-version":[{"id":197973,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/posts\/117537\/revisions\/197973"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/posts\/122057"}],"wp:attachment":[{"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/media?parent=117537"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/categories?post=117537"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/tags?post=117537"},{"taxonomy":"format","embeddable":true,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/format?post=117537"},{"taxonomy":"trilha","embeddable":true,"href":"https:\/\/homolog.fluency.io\/br\/wp-json\/wp\/v2\/trilha?post=117537"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}