Pacote dados: bases em português para praticar e ensinar

Quer saber como acessar várias bases de dados em Português com R? Post publicado no blog da Curso-R.

Tutorial
Teaching
Datasets
Data import
R Packages
Author

Beatriz Milz

Published

April 6, 2022

Tip

Esse post foi origalmente publicado no blog da Curso-R.

Introdução

O pacote dados disponibiliza a tradução de várias bases de dados que são originalmente disponíveis em outros pacotes de R. Recentemente o pacote foi disponibilizado no CRAN! Esse post foi escrito para que as pessoas conheçam mais sobre ele!

Pacote dados

O pacote dados disponibiliza a tradução de várias bases de dados que são originalmente disponíveis em outros pacotes de R.

O pacote começou a ser desenvolvido em Junho de 2020, e é um irmão do pacote datos. O datos foi desenvolvido para ser usado na tradução do livro R para Ciência de Dados em espanhol, feita volutariamente pela comunidade Latino-Americana de R.

Um destaque importantíssimo é que as traduções do pacote dados foram feitas voluntariamente por pessoas da comunidade Latino-Americana de R, contando com a colaboração de pessoas que fazem parte da Latin-R, R-Ladies e Curso-R, sendo elas: Riva Quiroga, Sara Mortara, Beatriz Milz (professora na Curso-R), Andrea Sánchez-Tapia, Alejandra Andrea Tapia Silva, Beatriz Maurer Costa, Jean Prado, Renata Hirota, William Amorim (professor na Curso-R), e Emmanuelle Rodrigues Nunes.

Alguns dos objetivos do pacote dados são:

  • Disponibilizar bases de dados em português utilizadas para praticar e ensinar R (como em tutoriais, cursos, textos em blogs, livros). Por exemplo, estão disponíveis lá todas as bases usadas no livro R for Data Science, entre outras;

  • Incentivar pessoas a ser tornarem desenvolvedoras em R (várias pessoas que participaram do desenvolvimento do pacote e realizaram traduções não tinham experiência anterior com colaboração via GitHub e desenvolvimento de pacotes em R, por exemplo);

  • Colaborar com a diminuição da lacuna linguística em materiais usados no ensino e prática de R.

O pacote está disponível no CRAN e pode ser instalado utilizando o seguinte código:

install.packages("dados")

Para que as bases fiquem disponíveis, utilize a função library(dados) ou use com dados::nome_da_base.

Todas as bases possuem a documentação traduzida também. Você pode conferir na aba Help, usando ?dados::nome_da_base ou conferindo na documentação online do pacote.

Existem bases bem legais disponíveis, como:

Star Wars

  • A base de dados de personagens da franquia Star Wars, disponibilizada originalmente no pacote dplyr. Por isso, é esperado que seja bastante útil em exemplos de manipulação de dados. Porém podemos criar visualizações bem legais também usando esses dados! Aliás, essa é a base utilizada no desafio 3, focado em visualização de dados, com o objetivo de replicar esse gráfico:

Espie a base por aqui:

dplyr::glimpse(dados::dados_starwars)
## Rows: 87
## Columns: 14
## $ nome            <chr> "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vader", "Le…
## $ altura          <int> 172, 167, 96, 202, 150, 178, 165, 97, 183, 182, 188, 1…
## $ massa           <dbl> 77.0, 75.0, 32.0, 136.0, 49.0, 120.0, 75.0, 32.0, 84.0…
## $ cor_do_cabelo   <chr> "Loiro", NA, NA, "Nenhum", "Castanho", "Castanho, Cinz…
## $ cor_da_pele     <chr> "Branca clara", "Ouro", "Branca, Azul", "Branca", "Cla…
## $ cor_dos_olhos   <chr> "Azul", "Amarelo", "Vermelho", "Amarelo", "Castanho", …
## $ ano_nascimento  <dbl> 19.0, 112.0, 33.0, 41.9, 19.0, 52.0, 47.0, NA, 24.0, 5…
## $ sexo_biologico  <chr> "Macho", "Nenhum", "Nenhum", "Macho", "Fêmea", "Macho"…
## $ genero          <chr> "Masculino", "Masculino", "Masculino", "Masculino", "F…
## $ planeta_natal   <chr> "Tatooine", "Tatooine", "Naboo", "Tatooine", "Alderaan…
## $ especie         <chr> "Humano", "Droide", "Droide", "Humano", "Humano", "Hum…
## $ filmes          <list> <"The Empire Strikes Back", "Revenge of the Sith", "R…
## $ veiculos        <list> <"Snowspeeder", "Imperial Speeder Bike">, <>, <>, <>,…
## $ naves_espaciais <list> <"X-wing", "Imperial shuttle">, <>, <>, "TIE Advanced…

Pinguins

A base dos pinguins foi disponibilizada com o objetivo de ser uma alternativa à base de dados iris. Podemos utilizar essa base para ensinar e praticar principalmente temas de visualização e manipulação de dados.

Algo muito legal são as vignettes do pacote original, que apresentam tutoriais sobre como fazer visualizações interessantes com os dados. Que tal experimentar recriá-las utilizando os dados em português?

Espie a base por aqui:

dplyr::glimpse(dados::pinguins)
## Rows: 344
## Columns: 8
## $ especie               <fct> Pinguim-de-adélia, Pinguim-de-adélia, Pinguim-de…
## $ ilha                  <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torg…
## $ comprimento_bico      <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34…
## $ profundidade_bico     <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18…
## $ comprimento_nadadeira <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190,…
## $ massa_corporal        <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 34…
## $ sexo                  <fct> macho, fêmea, fêmea, NA, fêmea, macho, fêmea, ma…
## $ ano                   <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, …

Filmes da Pixar

O pacote pixarfilms apresenta algumas bases de dados com informações sobre filmes da Pixar. Todas as bases foram traduzidas e disponibilizadas no pacote dados! Essas bases podem ser utilizadas para treinar manipulação e visualização de dados. Na minha opinião, essas bases são super interessantes para ensinar os concentos dos joins do dplyr!

O post ‘Pixar: Uma História de dados’, foi escrito por Fernando Barbalho, e publicado no Blog da Escola de Dados, utilizando os dados deste pacote. No meu blog há uma versão do post com os códigos para gerar todas as visualizações.

Espie as bases por aqui:

dplyr::glimpse(dados::pixar_filmes)
## Rows: 27
## Columns: 5
## $ ordem_lancamento         <chr> "1", "2", "3", "4", "5", "6", "7", "8", "9", …
## $ filme                    <chr> "Toy Story - Um Mundo de Aventuras", "Vida de…
## $ data_lancamento          <date> 1995-11-22, 1998-11-25, 1999-11-24, 2001-11-…
## $ duracao                  <dbl> 81, 95, 92, 92, 100, 115, 117, 111, 98, 96, 1…
## $ classificacao_indicativa <chr> "Livre", "Livre", "Livre", "Livre", "Livre", …
dplyr::glimpse(dados::pixar_avalicao_publico)
## Rows: 24
## Columns: 5
## $ filme                <chr> "Toy Story - Um Mundo de Aventuras", "Vida de Ins…
## $ nota_rotten_tomatoes <dbl> 100, 92, 100, 96, 99, 97, 74, 96, 95, 98, 98, 40,…
## $ nota_metacritic      <dbl> 95, 77, 88, 79, 90, 90, 73, 96, 95, 88, 92, 57, 6…
## $ nota_cinema_score    <chr> "A", "A", "A+", "A+", "A+", "A+", "A", "A", "A", …
## $ nota_critics_choice  <dbl> NA, NA, 100, 92, 97, 88, 89, 91, 90, 95, 97, 67, …
dplyr::glimpse(dados::pixar_bilheteria)
## Rows: 24
## Columns: 5
## $ filme                    <chr> "Toy Story - Um Mundo de Aventuras", "Vida de…
## $ orcamento                <dbl> 3.00e+07, 1.20e+08, 9.00e+07, 1.15e+08, 9.40e…
## $ bilheteria_eua_canada    <dbl> 191796233, 162798565, 245852179, 289916256, 3…
## $ bilheteria_outros_paises <dbl> 181757800, 200460294, 251522597, 342400393, 5…
## $ bilheteria_mundial       <dbl> 373554033, 363258859, 497374776, 632316649, 8…
dplyr::glimpse(dados::pixar_equipe)
## Rows: 220
## Columns: 3
## $ filme <chr> "Toy Story - Um Mundo de Aventuras", "Toy Story - Um Mundo de Av…
## $ cargo <chr> "Diretor(a)", "Roteirista", "Roteirista", "Roteirista", "Roteiri…
## $ nome  <chr> "John Lasseter", "Joel Cohen", "Alec Sokolow", "Andrew Stanton",…
dplyr::glimpse(dados::pixar_generos)
## Rows: 128
## Columns: 2
## $ filme  <chr> "Toy Story - Um Mundo de Aventuras", "Toy Story - Um Mundo de A…
## $ genero <chr> "Animação", "Aventura", "Comédia", "Família", "Fantasia", "Anim…
dplyr::glimpse(dados::pixar_oscars)
## Rows: 80
## Columns: 3
## $ filme                <chr> "Toy Story - Um Mundo de Aventuras", "Toy Story -…
## $ tipo_premio_indicado <chr> "Melhor Filme de Animação", "Melhor Roteiro Origi…
## $ resultado            <chr> "Prêmio ainda não introduzido", "Nomeado", "Inele…

Todas as bases disponíveis

Veja o nome e a descrição de todas as bases disponíveis:

Nome Descrição
aeroportos Aeroportos
arremesadores Tabela de estatísticas de arremesadores
avioes Dados de aviões
bebes Nomes de bebês
casas Dados de habitação em Ames
clima Dados de clima
companhias_aereas Nomes de companhias aéreas
comuns Modelos comuns de carros
dados_atmosfera Dados atmosféricos
dados_gapminder Dados de Gapminder
dados_iris Dados de espécies de flor de Íris por Edgar Anderson
dados_oms Dados de tuberculose da Organização Mundial da Saúde
dados_starwars Personagens de Starwars
diamante Preço de 50 mil diamantes
gerentes Tabela de gerentes
jardineiros Tabela de estatísticas do jardineiro
milhas Dados de economia de combustível de 1999 a 2008 para 38 modelos populares de carros
mtcarros Testes de estrada para automóveis
pessoas Tabela de pessoas
pinguins Medidas de pinguins adultos perto da Estação Palmer, Antártida (Palmer Station)
pixar_avalicao_publico Filmes da Pixar e avaliações
pixar_bilheteria Bilheteria dos filmes da Pixar
pixar_equipe Equipe dos filmes
pixar_filmes Filmes da Pixar
pixar_generos Gêneros dos filmes da Pixar
pixar_oscars Filmes da Pixar com indicações ao Oscar
premios_gerentes Tabela de prêmios dos gerentes
presidentes_eua Período que engloba 11 presidentes, desde Eisenhower até Obama
questionario Amostra de variáveis categóricas do questinário ‘General Social Survey’ (GSS)
rebatedores Tabela de estatíticas de Beisebol
salarios Tabela de salários
tabela1 Registros de tuberculose da Organização Mundial da Saúde (primeira variante)
tabela2 Registros de tuberculose da Organização Mundial da Saúde (segunda variante)
tabela3 Registros de tuberculose da Organização Mundial da Saúde (terceira variante)
tabela4a Registros de tuberculose da Organização Mundial da Saúde (variante 4a)
tabela4b Registros de tuberculose da Organização Mundial da Saúde (variante 4a)
tabela5 Registros de tuberculose da Organização Mundial da Saúde (quinta variante)
veiculos Dados de economia de combustível
velho_fiel Dados do gêiser Velho Fiel (Old Faithful)
voos Dados de voos

Conclusão

Espero que o post tenha sido uma boa introdução ao pacote dados, seja você uma pessoa que deseja ensinar ou praticar R.

Caso tenha sugestões de melhoria nas traduções, escreva uma issue no repositório do pacote!

Até a próxima!