Impressões pessoais da rstudio::conf(2022)

Nesse post, apresentamos nossas impressões pessoais sobre o evento que aconteceu em Washington DC!

Community
RStudio
Events
Autores

Julio Trecenti

Flavia E. Rius

Beatriz Milz

Data de Publicação

12 de agosto de 2022

Dica

Esse post foi origalmente publicado no blog da Curso-R.

A rstudio::conf(2022) acabou, mas não saiu de nós. Ficaram as memórias, as coisas novas para estudar, e as novas amizades. Nesse post, falamos um pouco de nossas experiências pessoais na conferência. O texto conta com a participação especial da Flávia E. Rius, que particiou do evento comigo (Julio) e com a Beatriz. Confira!

Flávia E. Rius

Twitter: @flaviaerius

Blog: https://flaviaerius.netlify.app

Participei da rstudio::conf() pela primeira vez neste ano de 2022, e última, já que ano que vem será posit::conf(), e vou contar sobre a minha experiência neste post. Pra deixar todos no contexto, vou me apresentar. Eu sou a Flávia E. Rius, cientista de dados na Mendelics/meuDNA, empresas de análise genômica (sim, do DNA!) Uso o R para a maior parte do meu trabalho, principalmente em limpeza, processamento e estruturação de dados, modelos, e criação de reports e relatórios em Rmarkdown (era pré-Quarto.) Além disso, dou mentorias online para pessoas do mundo todo em R, bioinformática e estatística. Como a Bea, apliquei para a bolsa de Diversity Scholar para participar da conferência, e fui escolhida para recebê-la (yay!)

Essa foi a minha primeira conferência de R, e também a primeira relacionada a Data Science fora do mundo da bioinformática. Foi uma experiência completamente nova.

Escolhi o workshop de Machine Learning With Tidymodels, que aconteceu nos primeiros dois dias do congresso, das 9 às 17h. Os outros dois dias consistiram em palestras acontecendo paralelamente em diferentes salas, e a tarefa de escolher a quais participar não foi fácil.

A primeira impressão que tive ao chegar foi do hotel, gigantesco, e com uma estrutura pra congressos que eu nunca tinha visto antes. O hotel fica localizado numa espécie de cidade turística artificial, chamada National Harbor, no estado de Maryland.

Workshop: Machine Learning With Tidymodels

Confesso que fui descobrir uma migalha do que eram os tidymodels uma semana antes do workshop. Escolhi ele porque queria aprender mais sobre machine learning (ML), e, apesar de saber que a ferramenta preferida para a aplicação de ML é scikit-learn no python, achei interessantíssimo aprender no R, linguagem que já é confortável pra mim.

Tidymodels são ferramentas dentro de diversos pacotes que, juntas, formam uma maneira nova de criar modelos estatísticos e de ML no R. Dentre os pacotes estão: recipes, rsample, parsnip, workflows, vetiver, etc..

Resumi em tópicos os pontos altos e não tão altos do workshop abaixo.

Pontos altos do workshop:

  • Modularidade: com os tidymodels cada etapa é um módulo que fica guardado em uma variável e pode ser aplicada para novos dados. Por exemplo a receita do pacote recipes e o workflow do pacote workflows. Isso é feito no intuito de guardar todo o processo aplicado nos dados de treino, para, no final, repetir para os dados de teste, ou mesmo reaplicar um pré-processamento e feature engineering para um novo set de dados, por exemplo.

  • Professores: Max Kuhn, Julia Silge e Davis Vaughan foram professores excepcionais, com destaque para a Julia, que é fenomenal na didática. Ela explica de uma forma muito fácil e completa, para que todos possam entender. Todos trouxeram sua expertise, um complementando o outro sobre os as dúvidas que iam surgindo (aliás, o grupo de alunos também era muito bom, com dúvidas bastante pertinentes e complementares ao workshop.) Os Teaching Assistants (TAs) foram muito bons em ajudar com as dúvidas, e mesmo os professores, quando não estavam dando a aula, atuaram como TAs, ajudando com as dúvidas dos alunos.

  • vetiver: em particular, essa ferramenta fez meus olhos brilharem, apesar de ter sido mostrada bem brevemente. É uma maneira de construir uma API a partir do R para deploy de modelos de machine learning, que já resulta na página da API, e pode até gerar a Dockerfile pra deploy da API em plataformas como o Google App Engine ou AWS.

Pontos não tão altos do workshop:

  • Conceitos de ML: foram usados exemplos de árvores de decisão (decision trees) e random forests, mas faltou explicar com mais detalhe o que são, e em quais situações podem ser usados. Eu relevei absolutamente essa parte porque sei que não é fácil passar todo o conteúdo necessário, ainda mais em um workshop de apenas dois dias com tanto conteúdo sobre ML e aplicações na ferramenta de foco, os tidymodels.

Se você tiver interesse em saber mais sobre o workshop, todo o conteúdo está disponível online:

  • Slides e pré-requisitos: todos os slides foram feitos com Quarto, o que significa que são interativos, ou seja, é possível copiar código e clicar nos links dos slides.

  • Material complementar: são informações extras sobre alguns slides, que também podem ser acessadas pelo ícone i vermelho no canto superior direito.

Palestras

Os dias 3 e 4 da conferência consistiram em palestras, sendo elas quatro keynotes, que são as palestras principais, grandes, sem nenhuma outra acontecendo em paralelo.

A primeira keynote foi sobre tidymodels, com a Julia Silge e o Max Kuhn, e também contou com o super anúncio da mudança de nome da RStudio para Posit pelo Hadley Wickham e o JJ Allaire, fundador e CEO da RStudio (agora Posit.)

A segunda foi com o Joe Cheng, CTO da RStudio. Ele contou a história sobre como o Shiny surgiu, e trouxe novidades como o Shiny para python e a versão no code do Shiny para R, usando apenas ferramentas de apontar e clicar.

A terceira, com a Mine Çetinkaya e a Julia Stewart, falou sobre as maravilhas do Quarto. Uma ferramenta que me chamou muito a atenção é o multiplex, em que o link dos seus slides construídos em Quarto muda os slides conforme você muda na sua apresentação! Muito mágico! Claro que tem muita coisa interessante no Quarto além disso, recomendo dar uma olhada.

A última, com o Jeff Leek, contou sobre o seu projeto social de trazer jovens da periferia para o aprendizado e aplicação de ciência de dados, o Data Trail. Um projeto muito bonito, em que os alunos são pagos para fazerem o curso, e, ao fim, têm acesso a um estágio na área.

Entre as keynotes várias palestras interessantes aconteceram. As que mais me chamaram a atenção foram:

  • Demistifying MLOps, da Isabel Zimmerman, onde ela fez um paralelo entre fazer cookies e os processos de construção, deploy e manutenção de modelos de machine learning usando o vetiver;

  • Making Data Pipelines With R, da Meghan S Harris, com dicas valiosas de organização e documentação para pipelines de análise de dados;

  • Garbage Data, do Jim Kloet, que falou sobre o que fazer com a garbage data (dados lixo) e da importância de definir a coleta de dados corretamente;

  • Exploring Query Optimization, da Rebecca Hadi, sobre como lidar com queries de tabelas no SQL com mais de um bilhão de colunas;

  • dm: Analyze, build and deploy relational data models, do Kirill Muller, que mostrou um pacote muito interessante para construir esquemas de bancos de dados relacionais a partir de tibbles no R;

  • The Future of missing data, do Nicholas Tierney, sobre como lidar com dados faltantes, inclusive trazendo maneiras de incluir tais dados em sua análise para entender o que pode ter acontecido com eles.

  • Small Team Large Organization: Building Impactful Shiny Dashboards at NIH, do Jon Nye, que falou sobre o uso de um modelo de machine learning para classificar solicitações de grants (verbas para pesquisa) de acordo com o tema e a relevância;

  • Building a ggplot2 rollercoaster, do Tyler Morgan-Wall, em que ele empregou seus pacotes de animação 3D no R rayshader e rayrender para obter um cenário 3D com gráficos do ggplot, e criou o pacote rayrollercoaster especificamente para a apresentação! A montanha-russa percorre os gráficos usando o percurso que você criar. A meu ponto de vista, a montanha-russa em si é mais uma diversão, mas os outros pacotes do Tyler são bastante úteis para visualização 3D.

Lembrando que essas foram minhas palestras favoritas de acordo com o que posso aplicar e meus interesses, e dentro das que assisti.

Em resumo, a conferência foi bastante enriquecedora. Aprendi muito sobre tidymodels, machine learning em geral, Quarto, e sobre diversos novos pacotes muito úteis no R (e alguns com versão em python também.)

Se você estiver considerando ir à conferência no ano que vem, saiba que será um tempo muito bem aproveitado!

Não deixe de aplicar para a bolsa de diversidade!

tl;dr

  • rstudio:conf(2022) foi fenomenal, com uma pegada tech, muitas novidades aplicáveis, e muita gente interessante;
  • workshop de ML com tidymodels trouxe uma análise de dados reais aplicando conceitos de ML como split de amostra, feature engineering, reamostragem e tunagem. Valeu muito a pena (confira o conteúdo aberto em workshops.tidymodels.org);
  • Julio, Bea e Dani aqui do curso-R são pessoas excepcionais, foi o maior prazer conhecê-los!

Beatriz Milz

Twitter: @BeaMilz

Blog: https://beamilz.com

Muito do que eu achei interessante já foi falado pela Flávia (neste post) e pelo Júlio (em posts anteriores) sobre a conferência, então vou abordar aqui o que for diferente! Além disso, adicionei alguns tweets postados durante o evento, pois é uma forma legal de ver fotos e conversas que aconteceram por lá!

Antes da conferência

Como a Flávia, essa também foi a primeira vez que participo da rstudio::conf(). Uma curiosidade é que, por pouco, eu não participei! Eu havia lido um anúncio anteriormente dizendo que o evento não aconteceria, então não fiquei acompanhando o site. Porém, no último dia disponível para submeter para a bolsa de diversidade e palestras, eu vi um tweet sobre a conferência e descobri que ela iria acontecer! Compartilhei com as minhas redes e logo corri para submeter uma palestra e também para a bolsa de diversidade.

Um tempo depois, recebi um email com o convite para ser Teaching Assistant (TA) no workshop Building Tidy Tools, ministrado pela Emma Rand e pelo Ian Lyttle. Eu aceitei e aí começou o processo de organizar tudo para participar do evento! Também recebi depois o email dizendo que a bolsa de diversidade foi aprovada, e que a palestra que eu submeti foi aprovada como uma lightning talk (uma palestra de 5 minutos)! Enfim, fiquei extremamente grata por todas essas oportunidades.

Participando do workshop como TA

Participar como Teaching Assistant do workshop Building Tidy Tools foi uma experiência INCRÍVEL! As pessoas ministrantes do workshop (Emma Rand e Ian Lyttle) são extremamente gentis, e mesmo antes do workshop eles incluiam os TAs nas conversas via email para que a gente já tivesse familiaridade com a estrutura do workshop e os materiais que seriam utilizados.

Aliás, todos os materiais para este workshop estão disponíveis neste site!

No primeiro dia do workshop, o foco foi abordar como podemos criar um pacote: no final do primeiro dia, as pessoas participantes já tinham um pacote criado, com algumas funções e seus testes, disponível online, e com uma página web feita com pkgdown! Nesse dia, consegui auxiliar bastante pessoas com dúvidas que surgiam sobre configuração do ambiente para desenvolvimento de pacotes, e os erros que apareciam no caminho durante o workshop. Eu já tinha bastante experiência com vários dos erros que aconteciam, pois eu utilizo pacotes diariamente e também sou uma das professoras do curso de pacotes na Curso-R.

No segundo dia do workshop, o conteúdo foi aprofundado e o foco foi a construção de funções de forma que elas funcionem bem de acordo com a filosofia do tidyverse, sendo o destaque (na minha opinião) o conteúdo sobre design de funções e tidy eval.

Em resumo: foi uma oportunidade maravilhosa, e agradeço muito à Mine Çetinkaya-Rundel (que estava na organização dos workshops neste evento), aos instrutores e outros TAs, e também aos estudantes que participaram do workshop!

Bolsa de diversidade

Como comentei anteriormente, eu e a Flávia fomos selecionadas para receber uma bolsa de diversidade. Algo que gostei muito foi terem criado um canal do Slack, antes mesmo da conferência, para que pudessemos conversar e conhecer outros bolsistas! Assim, quando chegamos no evento já conheciamos várias pessoas e foi mais fácil de se conectar :) Essa foto tem o registro das pessoas que participaram como bolsistas:

Imagem das pessoas que participaram como bolsistas de diversidade. Fonte: Imagem disponibilizada por Katherine Vu (RStudio).

Palestrando na rstudio::conf()

A minha palestra relâmpago foi sobre um tema que tenho aprendido nos últimos 2 anos e acho muito útil e interessante: automatizações com GitHub Actions.

Dica

A gravação da palestra está disponível no site da conferência!

Frame do video da palestra

Um destaque foi o treinamento recebido pela Articulation. Todas as pessoas que palestraram no evento receberam convites para participar de um treinamento para oferecer palestras mais interessantes, e eu participei em duas atividades. O treinamento recebido me fez reformular completamente a minha proposta, diminuindo o escopo da palestra e focando em um público-alvo mais restrito: pessoas que ainda não usam GitHub Actions!

Palestrar na rstudio::conf() foi uma experiência muito legal! A energia da platéia foi muito boa, e várias pessoas falaram comigo após a palestra dizendo que acharam interessante!

Todo material (slides e material complementar) está disponível no meu blog.

Primeiro slide da palestra

Primeiro slide da palestra

O Julio me ajudou bastante durante a criação dessa palestra, dando vários feedbacks, e eu o agradeço muito! Além disso, ele comentou um pouco da minha palestra no post sobre o segundo dia do evento.

Quarto

O Quarto, para quem não conhece, é a nova geração do RMarkdown. Eu já venho usando o Quarto desde outubro de 2021, enquanto ele estava sendo desenvolvido e aprimorado. Então poucas coisas foram novidades para mim nas palestras sobre Quarto, mas eu gostei de ver como foi dado ênfase! A keynote ‘Hello Quarto’ da Mine Çetinkaya-Rundel e da Julia Stewart Lowndes foi maravilhosa, com lindas artes da Allison Horst.

One penguin standing on another penguin's shoulders in a snowscape, looking through a telescope at a Quarto logo “moon” in the night sky.

One penguin standing on another penguin's shoulders in a snowscape, looking through a telescope at a Quarto logo “moon” in the night sky.

Artwork from “Hello, Quarto” keynote by Julia Lowndes and Mine Çetinkaya-Rundel, presented at RStudio Conference 2022. Illustrated by Allison Horst.

Tenho usado bastante e sei que ainda tem muita coisa legal para ser lançada relacionado ao Quarto. Eu e o Julio ficamos tão empolgados, que reestruturamos o curso de relatórios da Curso-R (próxima turma começa em 16/08/2022) para abordar bastante conteúdo sobre essa ferramenta nova!

Encontros

Uma das coisas mais divertidas foi conhecer tanta gente legal da comunidade, e conversar nos períodos das refeições e nos eventos no período da noite, que dão espaço para conversas entre participates. O tweet abaixo foi tirado na primeira noite do evento: eu e o Julio levamos alguns jogos e jogamos com algumas pessoas que conhecemos por lá!

Stickers

Uma febre durante o evento é aumentar a coleção de stickers. Esse tweet feito pelo Luis resume vários momentos durante a conferência em que várias pessoas buscavam algum sticker de pacotes queridos em uma mesa cheia deles!

Eu trouxe de volta vários stickers, e já colei no meu computador e estou distribuindo entre os amigos! Esse é o meu computador após a conferência:

Notebook com vários stickers!

Conclusão da Bea

Enfim, essa conferência foi INCRÍVEL! Espero ter oportunidades de participar nas conferências da posit no futuro :)

Julio Trecenti

Como eu já comentei sobre tudo o que passei nos posts anteriores – dia 1: aqui e dia 2: aqui – serei bem breve.

Para mim, a parte mais legal foram os encotros e reencontros presenciais. Além da companhia sempre maravilhosa da Bea e da companhia da Flávia que nos acompanhou em toda a viagem, também encontramos novas pessoas do Brasil, reencontramos amigos e conhecemos novas pessoas de fora.

Na parte técnica, para mim o mais legal foi ver como a RStudio, agora Posit, está se aproximando de forma amigável de outras linguagens de programação. Ao invés de simplesmente começar a fazer ferramentas para o Python, a empresa decidiu criar ferramentas multi-linguagem, focando na produção científica (como o Quarto), que vai muito além das linguagens de programação.

E claro, meu lado tiete adorou ter refeições com o Hadley e conversar com outras pessoas famosas, como o JJ Allaire, o Christophe Dervieux e o Tyler Morgan-Wall.

Abraços e até a próxima!