Seja vem-vindo à nossa plataforma de ensino de estatística básica

Data de atualização: 02/09/2023, 18:03

Objetivo

Essa plataforma visa atender aos alunos de graduação, pós-graduação e todos os profissionais que usam e estudam estatística. Ela foi criado com o objetivo de auxiliar na compreensão de cálculos e conceitos básicos de estatística, permitindo ao usuário visualizar cada etapa do processo de análise. Essa plataforma foi construída inteiramente em linguagem R, usando o pacote shiny e shinydashboard.

Organização e desenvolvimento

Desenvolvedor: Prof. Msc. Gabriel Danilo Shimizu

Universidade Estadual de Londrina, Departamento de estatística


Média aritmética

A média é definida como a somatória das observações dividida pelo número de observações, assim temos que:
$$\bar{x} = \frac{x_1 + x_2 + ... + x_3 + x_4}{n}$$

Mediana

É o valor que divide o conjunto ordenado de valores em duas partes com igual número de elementos, ou seja, 50% das observações ficam acima da mediana e 50% ficam abaixo.

Variância amostral (S²)

Variância amostral é a soma dos quadrados dos desvios, dividida pelo total de observações menos um.
$$S^2 = \frac{\sum(x_i-\bar{x})^2}{n-1}$$

Desvio-padrão amostral (S)

O desvio-padrão amostral é a raiz quadrada da variância e recebe a mesma unidade de medida da variável
$$S = \sqrt{S^2}$$

Coeficiente de variação (CV%)

O coeficiente de variação é a razão entre o desvio-padrão e a média. É uma medida relativa que independe da unidade de medida
$$CV (\%) = \frac{S}{\bar{x}}\times100$$

Visualização dos dados

Para média

Para proporção

Variável quantitativo discreta

Variável quantitativo contínua

Número de classes:


$$Método \ 1: \sqrt{n}$$
$$Método \ 2: \sqrt{n} - 1$$
$$Método \ 3: 1 + 3,3 \times log(n)$$
Amplitude:

Intervalo de classe calculado:



Definir intervalo de classe:

Gerar Tabela:




Legenda: Frequência absoluta (Freq); Frequência absoluta acumulada (Faa); Frequência relativa (Fr); Frequência relativa em porcentagem (Frp); Frequência relativa acumulada em porcentagem

Média ponderada

Obs. Importar uma planilha em excel ou csv. Deve conter apenas a primeira coluna com os pesos e a segunda com as observações. A primeira linha como cabeçalho

Média Ponderada

A média ponderada é a somatória das observações multiplicadas pelos respectivos pesos e dividida pela somatória dos pesos, conforme a seguir:
$$\bar{x} = \frac{\sum^N_{i=1}\bar{x}_i n_i}{n}$$

Gráfico de caixas

Ordenar conjunto de dados

A primeira etapa é ordenar o conjunto de dados de forma crescente

Mediana

A primeira medida de posição a ser encontrada é a mediana, que dividi em 50% o conjunto de dados

Primeiro quartil (Q1)

A segunda medida de posição é o primeiro quartil que representa os primeiros 25% do conjunto de dados. Para encontrar, a forma mais fácil é calcular a mediana dos valores abaixo da mediana.

Terceiro quartil (Q3)

A terceira medida de posição é o terceiro quartil que representa os primeiros 75% do conjunto de dados. Para encontrar, a forma mais fácil é calcular a mediana dos valores acima da mediana.

Limite superior

O limite superior é calculado pela fórmula:
$$LS = Q3 + 1,5(Q3-Q1)$$ Se o valor encontrado foi maior que o maior valor do conjunto de dados, o limite superior é substituido pelo máximo

Limite inferior

O limite inferior é calculado pela fórmula:
$$LI = Q1 - 1,5(Q3-Q1)$$ Se o valor encontrado foi menor que o menor valor do conjunto de dados, o limite inferior é substituido pelo mínimo

Outliers

Se houver observações abaixo ou acima do limite inferior e superior, respectivamente, é considerado um outlier.

Conclui-se que:

Gráfico

Funções em construção (Atualizado em 01/09/2023)

Informações

Calcular probabilidade
$$p(X=x) = \binom{n}{k}\rho^x(1-\rho)^{n-x} $$

Gráficos

Informações

Calcular probabilidade
$$p(X=x) = \frac{e^{-\lambda}\lambda^x}{x!}$$

Gráficos

Funções em construção (Atualizado em 01/09/2023)

Intervalo de confiança da média para uma população com variância conhecida

Inserção de dados

Intervalo de confiança

$$IC=\bar{X} \pm Z \times \frac{\sigma}{\sqrt{n}}$$


Intervalo de confiança da média para uma população com variância desconhecida

Inserção de dados

Intervalo de confiança

$$IC=\bar{X} \pm t \times \frac{\sigma}{\sqrt{n}}$$


Intervalo de confiança para proporção

Inserção de dados

Intervalo de confiança

$$IC=\bar{p} \pm Z \times \sqrt{\frac{p(1-p)}{n}}$$


Intervalo de confiança para diferença de duas populações com variância conhecida

Inserção de dados

Intervalo de confiança

$$IC=(\bar{X}-\bar{Y}) - Z_{\alpha/2} \times \sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}; (\bar{X}-\bar{Y}) + Z_{\alpha/2} \times \sqrt{\frac{\sigma_x^2}{n_y}+\frac{\sigma_y^2}{n_y}}$$


Intervalo de confiança para diferença de duas populações com variância desconhecida e igual

Inserção de dados

Intervalo de confiança

Desvio-padrão conjunto:
$$S_p = \sqrt{\frac{(n_x-1)S_x^2+(n_y-1)S_y^2}{n_x+n_y-2}}$$


Intervalo de confiança:
$$IC=(\bar{X}-\bar{Y}) - t_{n_x+n_y-2, \alpha/2} \times S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}; (\bar{X}-\bar{Y}) + t_{n_x+n_y-2, \alpha/2} \times S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}$$


Intervalo de confiança para diferença de duas populações com variância desconhecida e desigual

Inserção de dados

Intervalo de confiança

$$IC=(\bar{X}-\bar{Y}) - t_{v, \alpha/2} \times \sqrt{\frac{S_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}; (\bar{X}-\bar{Y}) + t_{v, \alpha/2} \times \sqrt{\frac{S_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}$$


Teste Z para uma média populacional com variância conhecida

Introdução

Teste Z para uma média populacional (μ) com desvios-padrão populacional conhecido (σ).

Selecione as hipóteses nula e alternativa, digite o nível de significância, a média da amostra, o desvio-padrão da população, e o tamanho amostral



Gráfico

Inserção de dados

Estatística do teste e valor de p

$$Z=\frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}$$


Valor de p

Valor de Z tabelado

Teste t para uma média populacional com variância desconhecida

Introdução

Teste t para uma média populacional (μ) com desvios-padrão populacional desconhecido (σ).

Selecione as hipóteses nula e alternativa, digite o nível de significância, a média da amostra, o desvio-padrão amostral, e o tamanho amostral



Gráfico

Inserção de dados

Estatística do teste e valor de p

$$t=\frac{\bar{x} - \mu}{\frac{S}{\sqrt{n}}}$$

Valor de p

Valor de Z tabelado

Teste Z para uma proporção populacional

Introdução

Selecione as hipóteses nula e alternativa, digite o nível de significância, a proporção amostral, a proporção populacional, e o tamanho amostral



Gráfico

Inserção de dados

Estatística do teste e valor de p

$$Z=\frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}$$

Valor de p

Valor de Z tabelado

Teste Z para duas médias populacionais com variância conhecida

Introdução

Teste Z para duas médias populacionais (μ1 e μ2) com desvios-padrões populacionais conhecidos (σ1 e σ2).

Selecione as hipóteses nula e alternativa, digite o nível de significância, as médias da amostra, os desvios-padrão da população, os tamanhos das amostras



Inserção de dados

Estatística do teste e valor de p

$$Z=\frac{\bar{x_1} - \bar{x_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$

Valor de p

Valor de Z tabelado

Gráfico

Teste Z para duas proporções populacionais com variância conhecida

Introdução

Teste Z para duas proporções populacionais (p1 e p2).

Selecione as hipóteses nula e alternativa, digite o nível de significância, o número de ocorrências e os tamanhos das amostras

Inserção de dados

Estatística do teste e valor de p

$$f_1=\frac{x_1}{n_1}$$
$$f_2=\frac{x_2}{n_2}$$
$$p=\frac{x_1+x_2}{n_1+x_2}$$
$$Z=\frac{f_1 - f_2}{p(1-p)\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$

Valor de p

Valor de Z tabelado

Gráfico

Teste t para duas médias populacionais com variância desconhecida e igual

Introdução

Teste t para duas médias populacionais (μ1 e μ2) com desvios-padrões desconhecidos mas iguais.

Selecione as hipóteses nula e alternativa, digite o nível de significância, as médias da amostra, os desvios-padrão da amostra e os tamanhos das amostras



Inserção de dados

Estatística do teste e valor de p

Variância conjunta:
$$S_c^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$$
Estatística do teste:
$$t=\frac{\bar{x_1} - \bar{x_2}}{S_c\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$

Valor de p

Valor de t tabelado

Gráfico

Teste t para duas médias populacionais com variância desconhecida e desigual

Introdução

Teste t para duas médias populacionais (μ1 e μ2) com desvios-padrões desconhecidos e desiguais.

Selecione as hipóteses nula e alternativa, digite o nível de significância, as médias da amostra, os desvios-padrão da amostra e os tamanhos das amostras



Inserção de dados

Estatística do teste e valor de p

Estatística do Teste (t):
$$t=\frac{\bar{x_1} - \bar{x_2}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}$$
Graus de liberdade de Welch-Satterthwaite (v):
$$v = \frac{(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2})^2}{\frac{(S_1^2/n_1)^2}{n_1-1}+\frac{(S_2^2/n_2)^2}{n_2-1}}$$

Valor de p

Valor de t tabelado

Gráfico

Teste F para duas variâncias populacionais

Introdução

Teste F para igualdade de duas variâncias populacionais Digite o nível de significância, as variâncias das amostras e o tamanho amostral

$$H_0: \ Variâncias \ são \ iguais$$ $$H_1: \ Variâncias \ são \ diferentes$$

Estatística do teste e valor de p

Estatística do Teste (F):
Graus de liberdade 1:
Graus de liberdade 2:

Valor de p

Valor de F tabelado

Teste t pareado para duas amostras dependentes



Estatística do teste e valor de p

Média da diferença:

Variância da diferença:

Estatística do Teste (t):
$$t=\frac{|\bar{d}|}{S_d}\sqrt{n}$$

Valor de p

Valor de t tabelado

Gráfico

Delineamento inteiramente casualizado

Obs. Use apenas para dados balanceados, ou seja, com mesmo número de repetições por tratamento

Entrada de dados


Teoria

O Delineamento inteiramente casualizado (DIC) é considerado o delineamento mais simples dentro da estatistica. No DIC as unidades experimentais são destinadas a cada tratamento de uma forma inteiramente casual (sorteio). Os experimentos formulados com este delineamento são denominados “experimentos inteiramente ao acaso.”

Vantagens

- Delineamento flexível - número de tratamentos e repetições depende apenas da quantidade de parcelas disponíveis
- O número de repetições pode diferir de um tratamento para o outro (experimento não balanceado)
- A análise estatística é simples
- O número de G.L. resíduo é o maior possível

Desvantagens

- Exige homogeneidade das condições ambientais
- Pode estimar uma variância residual muito alta

O DIC apresenta as seguintes características:


- Considera apenas os princípios de repetição e casulização;
- Os tratamentos são divididos em parcelas de forma inteiramente casual;
- Exige que o material experimental seja semelhante e que as condições de estudo sejam completamentes uniformes;
- Os aspectos que devem ser considerados na semelhança entre as U.E. são aqueles que interferem nas respostas das mesmas aos tratamentos;
- Ele geralmente é mais utilizado em experimentos nos quais as condições experimentais podem ser bastante controladas (por exemplo em laboratórios);

Modelo linear para DIC

$$y_{ji}=\mu+\tau_i+\varepsilon_{ij}$$ $$y_{ji}: \ é \ a \ observação \ referente \ ao \ tratamento \ i \ na \ repetição \ j;$$ $$\mu: \ é \ a \ média \ geral \ (ou \ constante \ comum \ a \ todas \ as \ observações);$$ $$\tau_{i}: \ é \ o \ efeito \ de \ tratamento, \ com \ i=1,2,...,I;$$ $$\varepsilon_{ij}: \ é \ o \ erro \ experimental, \ tal \ que \ \varepsilon_{ij} \thicksim N(0;\sigma^2)$$

Hipóteses

Quadro auxiliar

Correção (C)
Graus de liberdade (GL)
Soma de quadrados total (SQT)
Soma de quadrados tratamento (SQTrat)
Soma de quadrados do resíduo
Quadrado médio do tratamento
Quadrado médio do resíduo
F calculado
F Tabelado

Resumo do quadro da Anova

Resultado:

Teste de Tukey

Resíduos

Teste de Normalidade dos erros de Shapiro-Wilk

$$H_{0} = Os \ erros \ seguem \ distribuição \ normal$$ $$H_{1} = Os \ erros \ não \ seguem \ distribuição \ normal$$ $$W = \frac{b^{2}}{\sum_{i=1}^n(x_{i}-\bar{x})^2}$$ $$b = \sum_{i=1}^{n/2}a_{n-1+1}(x_{n-i+1}-x_{i})$$ Não implementado!!!!

Teste de Homogeneidade das variâncias de Bartlett

$$H_{0} = Os \ tratamentos \ apresentam \ mesma \ variância$$ $$H_{1} = Os \ tratamentos \ não \ apresentam \ mesma \ variância$$ Variância por tratamento
Variância conjunta
Calculando a estatística B de Bartlett: $$B = \frac{\displaystyle \sum_{i=1}^{a} (n_i - 1) \ln {(s_c^2)} - \displaystyle \sum_{i=1}^{a} (n_i - 1) \ln s_i^{2}} {1 + \displaystyle \frac{1}{3(a-1)} \left[ \displaystyle \sum_{i=1}^{a} \frac{1}{n_i - 1} - \frac{1}{\displaystyle \sum_{i=1}^{a}(n_i -1)} \right]}$$
A estatística do teste de Bartlett é baseada na distribuição qui-quadrado com k-1 graus de liberdade, assim, o valor tabelado com nível de significância de 5% para esse exercício é:
Assim, o valor de p calculado com base na estatística B é:

Teste de Independência dos erros de Durbin-Watson

$$H_{0} = Os \ erros \ são \ independentes$$ $$H_{1} = Os \ erros \ não \ são \ independentes$$ $$DW = \sum^T_{t=2} = \frac{(e_t-e_{t-1})^2}{\sum^T_{t=1}e_t^2}$$ Um vez calculado os residuos brutos, é necessário calcular as diferenças entre cada observação com o sucessor e elevar ao quadrado:
Soma das diferenças ao quadrado:
Soma dos resíduos ao quadrado:
Estatística DW de Durbin Watson:

Delineamento em blocos casualizados completos

Obs. Use apenas para dados balanceados, ou seja, com mesmo número de repetições por tratamento

Entrada de dados


Correção (C)
Graus de liberdade (GL)
Soma de quadrados total (SQT)
Soma de quadrados tratamento (SQTrat)
Soma de quadrados blocos (SQB)
Soma de quadrados do resíduo
Quadrado médio do tratamento
Quadrado médio do bloco
Quadrado médio do resíduo
F calculado

Resumo do quadro da Anova

Teste de Tukey

Delinamento em blocos casualizados com mais de uma repetição por bloco

Obs. Use apenas para dados balanceados, ou seja, com mesmo número de repetições por tratamento.

Entrada de dados


Correção (C)
Graus de liberdade (GL)
Soma de quadrados total (SQT)
Soma de quadrados tratamento (SQTrat)
Soma de quadrados blocos (SQB)
Soma de quadrados do resíduo
Quadrado médio do tratamento
Quadrado médio do bloco
Quadrado médio do resíduo
F calculado
Resumo do quadro da Anova
Teste de Tukey

Delinamento em quadrado latino

Entrada de dados


Correção (C)
Graus de liberdade (GL)
Soma de quadrados total (SQT)
Soma de quadrados tratamento (SQTrat)
Soma de quadrados linhas (SQL)
Soma de quadrados colunas (SQC)
Soma de quadrados do resíduo
Quadrado médio do tratamento
Quadrado médio da linha
Quadrado médio da coluna
Quadrado médio do resíduo
F calculado
Resumo do quadro da Anova
Teste de Tukey

Delinamento inteiramente casualizado em esquema fatorial duplo

Entrada de dados


Correção (C)
Graus de liberdade (GL)
Soma de quadrados total (SQT)
Soma de quadrados fator 1 (SQF1)
Soma de quadrados fator 2 (SQF2)
Soma de quadrados interação (SQF1F2)
Soma de quadrados do resíduo
Quadrado médio do Fator 1
Quadrado médio da Fator 2
Quadrado médio da interação F1 x F2
Quadrado médio do resíduo
F calculado

Resumo do quadro da Anova

Teste de Tukey para o Fator 1


Nota: Considere somente quando a interação é não significativa e o efeito do fator 1 é significativo

Teste de Tukey para o Fator 2


Nota: Considere somente quando a interação é não significativa e o efeito do fator 2 é significativo

Desdobramento da interação:

Soma de quadrados de Fator 2 dentro de cada nível de Fator 1:
Soma de quadrados de Fator 1 dentro de cada nível de Fator 2:
Quadrado médio de Fator 2 dentro de cada nível de Fator 1:
Quadrado médio de Fator 1 dentro de cada nível de Fator 2:
F calculado de Fator 2 dentro de cada nível de Fator 1:
F calculado de Fator 1 dentro de cada nível de Fator 2:

Delinamento em blocos casualizados em esquema fatorial duplo

Entrada de dados


Correção (C)
Graus de liberdade (GL)
Soma de quadrados total (SQT)
Soma de quadrados fator 1 (SQF1)
Soma de quadrados fator 2 (SQF2)
Soma de quadrados bloco (SQ Bloco)
Soma de quadrados interação (SQF1F2)
Soma de quadrados do resíduo
Quadrado médio do Fator 1
Quadrado médio do Fator 2
Quadrado médio do Bloco
Quadrado médio da interação F1 x F2
Quadrado médio do resíduo
F calculado

Resumo do quadro da Anova

Teste de Tukey para o Fator 1


Nota: Considere somente quando a interação é não significativa e o efeito do fator 1 é significativo

Teste de Tukey para o Fator 2


Nota: Considere somente quando a interação é não significativa e o efeito do fator 2 é significativo

Desdobramento da interação:

Soma de quadrados de Fator 2 dentro de cada nível de Fator 1:
Soma de quadrados de Fator 1 dentro de cada nível de Fator 2:
Quadrado médio de Fator 2 dentro de cada nível de Fator 1:
Quadrado médio de Fator 1 dentro de cada nível de Fator 2:
F calculado de Fator 2 dentro de cada nível de Fator 1:
F calculado de Fator 1 dentro de cada nível de Fator 2:

Delinamento em blocos casualizados em esquema de parcelas subdivididas

Entrada de dados


Correção (C)
Graus de liberdade (GL)
Soma de quadrados total (SQT)
Soma de quadrados fator 1 (SQF1)
Soma de quadrados bloco (SQ Bloco)
Soma de quadrados da parcela
Soma de quadrados do resíduo da parcela
Soma de quadrados fator 2 (SQF2)
Soma de quadrados interação (SQF1F2)
Soma de quadrados do resíduo da subparcela
Quadrado médio do Fator 1
Quadrado médio do Bloco
Quadrado médio do resíduo da parcela
Quadrado médio do Fator 2
Quadrado médio da interação F1 x F2
Quadrado médio do resíduo da subparcela
F calculado

Resumo do quadro da Anova

Desdobramento da interação:

GL composto
QM resíduo composto
Soma de quadrados de Fator 2 dentro de cada nível de Fator 1:
Soma de quadrados de Fator 1 dentro de cada nível de Fator 2:
Quadrado médio de Fator 2 dentro de cada nível de Fator 1:
Quadrado médio de Fator 1 dentro de cada nível de Fator 2:
F calculado de Fator 2 dentro de cada nível de Fator 1:
F calculado de Fator 1 dentro de cada nível de Fator 2:

Análise de correlação linear de pearson

Entrada de dados


Média de X
Média de Y
Desvio-padrão de X
Desvio-padrão de Y
Coeficiente de correlação de Pearson
$$r = \frac{\sum^{n}_{i=1}(X_i-\bar{X})(Y_i-\bar{Y})}{(n-1)S_xS_y} $$
Hipóteses: $$H_0:p = 0 (Não \ existe \ correlação)$$ $$H_1:p \neq 0 (Existe \ correlação)$$ $$T=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \sim t_{n-2}$$ Estatística do teste (t):
Valor de t tabelado:
Conclusão:

Análise de regressão linear simples

Entrada de dados


Média de x
Média de y
Soma de x
Soma de y
Soma de xy
Soma de x^2
Coeficiente angular
Coeficiente linear (intercepto)
Equação:
R2:

Tabela t de Student unicaudal superior

Tabela Z da Distribuição Normal Padrão

Tabela F de Fischer-Snedecor


Coluna representa o grau de liberdade do numerador e linha representa grau de liberdade do denominador.

Tabela Qui-quadrado


Coluna representa o nível de significância e linha o grau de liberdade.