R e os Carros

Você já foi impactado pela notícia de que os dados são o novo petróleo? Você já sabe que a Ciência de Dados é dita como a profissão mais sexy do século? Pois bem, para analisar os dados o Cientista de Dados se vale de diversas ferramentas. Este artigo tem a finalidade de apresentar uma destas ferramentas: a Linguagem R.

O que é o R?

R se presta a diversas funções, desde uma calculadora científica, até a realização de complexas análises estatísticas. Além disso, o R também apresenta uma série de recursos para plotagem de gráficos, como personalização de: cor, tipo e tamanho de letra, símbolos, títulos e subtítulos, pontos, linhas, legendas, planos de fundo e muito mais. Mais que um software que realiza análises estatísticas, R é um ambiente e uma linguagem de programação orientada a objeto. Nele, números, vetores, matrizes, arrays, data frames e listas podem ficar armazenados em objetos.

Origens

S é a linguagem que foi desenvolvida por John Chambers nos laboratórios da Bell Labs. S foi inicialmente desenvolvida em 1976 como um ambiente de análise estatística, originalmente implementada usando bibliotecas da linguagem de programação Fortran. Entretanto, as primeiras versões da linguagem não continham funções de modelagem estatística.
Entender a filosofia da linguagem S, ajuda a entender as raízes que geraram a linguagem R. O fator mais importante a notar, é que a linguagem S nasceu como uma ferramenta de análise de dados e não como uma linguagem de programação tradicional. Os inventores de S tinham como objetivo tornar a análise de dados mais fácil, inicialmente para eles e então para os outros.

A linguagem R surgiu um pouco depois da linguagem S. Uma das limitações de S era o fato da linguagem estar disponível apenas através do pacote comercial S-PLUS. Em 1991, R foi criada por Ross Ihaka e Robert Gentleman no Departamento de Estatística da Universidade de Auckland. Em 1993 a linguagem R foi anunciada em público pela primeira vez. Em 1995, Martin Mahler fez uma importante contribuição, convencendo Ross e Robert a usarem a licença GNU General Public e tornar R um software livre. Isso permitiu que o código fonte da linguagem R se tornasse disponível para toda a comunidade. Em 1996 as listas públicas R-help e R-devel foram criadas e em 1997 foi formado o grupo R Core, com profissionais associados ao S e S-PLUS, estatísticos e cientistas da computação. Atualmente o grupo R Core controla o código fonte de R. Em 2000, finalmente a versão 1.0.0 do R foi liberada ao público.

Funções da Linguagem R

60% do tempo de um Cientista de Dados é usado no processo de limpeza, transformação e organização dos dados, ou seja, na manipulação. Analisar grandes conjuntos de dados, agrupá-los, aplicar modelos estatísticos, importar/exportar os dados para bancos de dados relacionais, tudo isso pode ser feito com R. A linguagem pode ser usada em todo o processo analítico, desde a coleta de dados, passando pela manipulação, Machine Learning, até a apresentação dos dados com a criação de gráficos a partir dos resultados das análises de dados.

Aplicações

A linguagem R pode ser aplicada nas mais diversas áreas, tais como: Pesquisa Científica, Business Analytics, Desenvolvimento de Software, Relatórios Estatísticos, Análise Financeira, Ciência Sociais e Big Data Analytics.

Autor: Diego Ribeiro

Artigo baseado em materiais do curso e no blog da Data Science Academy.