Become a member

Get the best offers and updates relating to Liberty Case News.

― Advertisement ―

spot_img
HomeDestaquesSeis perguntas a serem feitas antes de entrar em uma planilha

Seis perguntas a serem feitas antes de entrar em uma planilha

Pergunte a um monte de cientistas se eles usam planilhas em seu trabalho e você é obrigado a tocar em um nervo. Muitos juram planilhas, outros juram por eles e alguns juram profusamente quando são forçados a usá -las.

O que torna esse epítome da monotonia corporativa tão polarizando? As planilhas são amplamente acessíveis, mas podem causar dores de cabeça para os incautos. É fácil substituir acidentalmente o conteúdo em uma célula de dados, por exemplo, ou selecionar o intervalo errado para um cálculo e acabar com valores incorretos. Às vezes, o software em si pode atrapalhar: por exemplo, o Microsoft Excel é notório em círculos genéticos para converter automaticamente nomes de genes como OUT4 em datas.

Mas isso não significa que eles sejam uma causa perdida. “Existe esse tipo de crença de que uma planilha não é uma boa ferramenta para fazer ciência”, diz Yanina Bellini Saibene, “e isso não está correto”. Bellini Saibene is a data scientist in Santa Rosa, Argentina, and a community manager for rOpenSci, a non-profit initiative in Berkeley, California, that provides open-source software tools for users of the programming language R. Spreadsheets have a place in researchers’ toolboxes, she says, but, like any tool, their effectiveness depends on how they are used.

Infelizmente, a falta de treinamento padronizado levou alguns pesquisadores a desenvolver maus hábitos de gerenciamento de dados que minimizam a capacidade da planilha de ser útil, diz Karl Broman, estatístico da Universidade de Wisconsin-Madison, que escreveu sobre o gerenciamento de dados da planilha (Kw Broman & Kh Woo Woo Sou. Stat. 722-10; 2018). “As pessoas são criativas da maneira como abusarão de planilhas”, diz ele rindo.

Na próxima vez que você pensar em usar uma planilha para pesquisas, aqui estão seis perguntas que você pode fazer para torná -las mais eficazes.

Onde estão meus dados brutos?

Antes de fazer qualquer coisa com um arquivo de dados, verifique se você salvou uma versão intocada e claramente rotulada dos dados brutos-idealmente como um arquivo somente leitura em uma pasta separada.

“Toda vez que você interage com o Excel é uma oportunidade de digitar acidentalmente algo extra em algum lugar e não perceber”, diz Broman. Quando mesmo um único pressionamento de tecla pode substituir ou excluir os dados, ele exorta os pesquisadores a bloquear seu principal arquivo de dados e não mexer com eles. Em vez disso, faça uma cópia dos dados brutos e use a duplicata como sua versão de trabalho.

O que eu quero realizar?

Marla Hertz, uma bibliotecária de gerenciamento de dados de pesquisa da Universidade do Alabama em Birmingham, diz que muitos problemas relacionados à planilha decorrem da tentativa de fazer todas as etapas de uma análise em um único arquivo. Cada estágio do ciclo de vida dos dados – desde dados brutos e processados até análise e a figura final – serve a um propósito distinto e deve ser mantido separado dos outros estágios.

Obose Eselebor, técnica de software de pesquisa do Instituto Leeds de análise de dados da Universidade de Leeds, Reino Unido, diz que sua estratégia para limpeza e análise de dados depende de seu objetivo, seja uma visualização rápida ou uma figura digna de publicação. Ter um objetivo claro ajuda a eselebor a manter o foco durante a limpeza de conjuntos de dados grandes e confusos. Sua sugestão para evitar ficar sobrecarregada é resolver os problemas um de cada vez, como padronizar todos os formatos de data ou rastrear todas as células vazias, antes de seguir em frente.

Triptych, da esquerda para a direita - Yanina Bellini Saibene, Marla Hertz e Obose Eselebor.

A cientista de dados Yanina Bellini Saibene (à esquerda), a bibliotecária de gerenciamento de dados de pesquisa Marla Hertz (centro) e o técnico de software de pesquisa Obose eselebor.Crédito: LR: EMBL Photolab; Lexi Coon/o Conselho de Administração da Universidade do Alabama para a Universidade do Alabama em Birmingham; Programa de estágio preto do HDR UK

Estou usando a ferramenta certa?

Se as metas forem a entrada e a coleta de dados, as planilhas em branco são adequadas. Mas existem ferramentas melhores que podem ajudar a evitar problemas posteriores, diz Crystal Lewis, consultor freelancer de gerenciamento de dados em St. Louis, Missouri. A inserção de dados usando formulários digitais, como Formulários do Google, Formulários Microsoft, RedCap ou Qualtrics, pode reduzir os erros de entrada de dados, oferecendo aos usuários uma lista definida de opções, restringindo os tipos de valor que podem ser alimentados em SO não são colocados no local errado.

Para uma análise de dados pura, no entanto, as planilhas não devem ser sua primeira escolha, aconselha o cientista de dados Heidi Seibold em Munique, Alemanha, que é co-diretor executivo da Digital Research Academy, uma rede que fornece treinamento para melhorar a qualidade da pesquisa. Ao contrário de um script escrito em uma linguagem de programação, como Python ou R, que documenta todas as etapas do processo e pode ser salva, versionada e reprise, uma análise que acontece dentro de uma planilha usando apontamento e clique é difícil de seguir e ainda mais difícil de replicar.

As planilhas também não devem ser usadas se você tiver um conjunto de dados particularmente grande, diz Eselebor. Ela se lembra de uma época em que o que deveria ter sido uma espiada rápida em uma planilha com 100.000 linhas continuava congelando seu laptop. “Geralmente, eu mudo para Python ou SQL para trabalhar com arquivos enormes.” (SQL, ou linguagem de consulta estruturada, é uma linguagem de programação usada para gerenciar informações em bancos de dados.)

Broman concorda que os bancos de dados podem ser úteis quando as coisas estão “ficando realmente grandes ou realmente complicadas, ou quando você precisa ter acesso muito mais rápido aos dados”, mas o processo geralmente exige algumas habilidades de programação. Se o projeto for complexo o suficiente para exigir um banco de dados, provavelmente é uma boa idéia envolver os programadores de qualquer maneira, diz ele.

Como devo formatar meu lençol?

Uma das coisas mais importantes que um pesquisador pode fazer é manter sua planilha legível por máquina. Isso significa formatá -lo de tal maneira que um programa de computador pode mover os dados logicamente e processar as informações em cada célula com precisão.

“O computador vai querer um retângulo de dados, onde as linhas são indivíduos ou sujeitos e as colunas são medições”, diz Broman. Ele aconselha que todos os valores em uma coluna devem conter o mesmo tipo de dados com a mesma formatação.

As células vazias, mescladas ou contêm espaços ou caracteres especiais também podem dificultar a legibilidade da máquina, assim como os tipos de dados podem misturar uma célula (como incluir um valor e sua unidade). Hífens ou sublinhados podem ser usados para separar palavras em vez de espaços, diz Ming Tommy Tang, diretor de bioinformática da empresa medicinal AstraZeneca em Waltham, Massachusetts. Mas ele pede aos usuários que não os usem de forma intercambiável: “Apenas seja consistente”.

Como faço para explorar dados com responsabilidade?

Se você fizer algum tipo de análise ou investigação no Excel, mantenha cada conjunto de dados em sua própria planilha e restrinja cálculos e visualizações a guias dedicadas, aconselha Bellini Saibene.