1)
Considere o exemplo a seguir de duas tabelas que foram cruzadas utilizando uma função de cruzamento na linguagem R. A primeira se refere ao preço de compra de produtos adquiridos por uma empresa em um determinado mês, enquanto a segunda aponta qual o lucro percentual de cada modelo fabricado.
Exemplo de tabelas de dados.
Caso seja realizado um left_join na linguagem R, tomando como base a tabela 1, aponte a alternativa que traz os valores corretos para a média do lucro médio e o maior valor de lucro observado para os modelos presentes na tabela 1.
Alternativas:
a)
Média de lucro de 12.6 % e maior valor de 22 %.
b)
Média de lucro de 14.5 % e maior valor de 15 %.
c)
Média de lucro de 11.1 % e maior valor de 15 %.
d)
Média de lucro de 14.8 % e maior valor de 22 %.
e)
Média de lucro de 9.2 % e maior valor de 22 %.
2)
O enriquecimento de dados pode ser feito tanto pela criação de novas variáveis, como pelo cruzamento de duas bases de dados, podendo ainda ser feito a utilização das duas estratégias no mesmo projeto de ciência de dados.
Assinale a alternativa que traz um código em linguagem R que corretamente cria uma nova variável à base de dados A e que faz o cruzamento desta base com uma base externa B.
Alternativas:
a)
library(ggplot2)
A<- data.frame(chave=c(3,4,5,15,26), medida1=c(12,15,36,58,21))
B<- data.frame(chave=c(4,5,8,15,26), medida2=c(85,90,100,101,120))
A$medida3<-((A$medida1^2)/50)*100
b)
A<- data.frame(chave=c(3,4,5,15,26), medida1=c(12,15,36,58,21))
B<- data.frame(chave=c(4,5,8,15,26), medida2=c(85,90,100,101,120))
A$medida3<-((A$medida1^2)/50)*100
plot(A,B,by="chave")
c)
library(tidyverse)
A<- data.frame(chave=c(3,4,5,15,26), medida1=c(12,15,36,58,21))
B<- data.frame(chave=c(4,5,8,15,26), medida2=c(85,90,100,101,120))
A$medida3<-((A$medida1^2)/50)*100
left_join(A,B,by="chave")
d)
library(tidyverse)
A<- data.frame(chave=c(3,4,5,15,26), medida1=c(12,15,36,58,21))
B<- data.frame(chave=c(4,5,8,15,26), medida2=c(85,90,100,101,120))
left_join(A,B,by="chave")
e)
library(tidyverse)
A<- data.frame(chave=c(3,4,5,15,26), medida1=c(12,15,36,58,21))
A$medida3<-((A$medida1^2)/50)*100
left_join(A,B,by="chave")
3)
As inconsistências de preenchimento de variáveis categóricas têm como principal consequência a duplicação de níveis relacionados ao mesmo significado, que acabam sendo representados como categorias diferentes em tabelas e gráficos.
Avalie as afirmativas abaixo sobre causas de inconsistências de preenchimento:
I. Presença de espaços excessivos. Ex: “Região Sudeste”, ao invés de “Região Sudeste”.
II. Utilização de letras maiúsculas e minúsculas dentro da categoria. Ex: “Sudeste”.
III. Existência de muitas categorias em uma variável.
IV. Erros de digitação. Ex: “Biccleta”, ao invés de “Bicicleta’.
V. Adoção de diferentes termos para um mesmo significado. Ex: “Sem denominação” e “Sem nome”.
Todas as Assinale a alternativa que traz as afirmativas que correspondem a causas de inconsistências de preenchimento.
Alternativas:
a)
I, II e III.
b)
II e III.
c)
I, II, III, IV e V.
d)
I, IV e V.
e)
II e V.
4)
As inconsistências de formato acontecem quando uma variável de determinado tipo definido é lida pelo software como outro formato em função de algum erro de preenchimento, como inclusão de letras, espaços ou caracteres especiais. Nesta situação, a utilização da variável em análises estatísticas acaba sendo significativamente prejudicada.
Assinale a alternativa que traz o código em R que cria um conjunto de dados com inconsistência de formato para a variável quantitativa.
Alternativas:
a)
data.frame(nome=c("José", "Marcos", "Antônio", "Carlos"), valor=c(58, 75, 5825, 69)).
b)
data.frame(nome=c("José", "Marcos", "Antônio", "Carlos"), valor=c(0, 0, 0,0)).
c)
data.frame(nome=c("José", "Marcos", "Antônio", "Carlos"), valor=c(58, “75a”, 5825, 69)).
d)
data.frame(nome=c("José", "Marcos", "Antônio", "Carlos"), valor=c(NA, 75, NA, 69)).
e)
data.frame(nome=c("José", "Marcos", "Antônio", "Carlos"), valor=c(580, NA, NA, 0)).
5)
O enriquecimento de dados utilizando bases externas à organização é uma opção muito utilizada pelas organizações para aumentar a qualidade dos dados. Contudo, sua adoção tem diversas consequências para o projeto de ciência de dados.
Analise as afirmativas abaixo sobre consequências da utilização do enriquecimento de dados utilizando bases externas.
I. Necessidade de avaliar entraves legais associados ao uso de dados pessoais.
II. Os dados utilizados precisam ser submetidos a análise de inconsistência.
III. Economia de recurso financeiro em função da não necessidade de novas coletas de dados.
IV. Possibilidade de ampliar as estratégias comerciais devido a dados mais amplos.
Assinale a alternativa que aponta corretamente as afirmativas que trazem consequências do uso do enriquecimento de dados por bases externas.
Alternativas:
a)
I e II.
b)
II, III e IV.
c)
IV.
d)
III e IV.
e)
I, II, III e IV.