Manual de SPSS

Anuncio
ESCOLA SUPERIOR AGRÁRIA
INSTITUTO POLITÉCNICO DE CASTELO BRANCO
SPSS - MANUAL DE UTILIZAÇÃO
ARMANDO MATEUS FERREIRA
Escola Superior Agrária de Castelo Branco, 1999
SPSS
Índice
ÍNDICE
1-
INTRODUÇÃO .......................................................................................... 1
2-
EDITOR DE DADOS .............................................................................. 3
2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.1.7 2.1.8 -
2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 -
3-
CRIAR UM FICHEIRO DE DADOS .................................................. 5
DEFINIÇÃO DE VARIÁVEIS .................................................................... 5
INTRODUÇÃO DOS VALORES ................................................................ 9
GRAVAR O FICHEIRO DE DADOS ........................................................ 11
ABRIR UM FICHEIRO DE DADOS EXISTENTE .................................... 12
ACESCENTAR NOVOS CASOS A UM FICHEIRO DE DADOS............... 13
ACRESCENTAR NOVAS VARIÁVEIS ...................................................... 14
DEFINIR UMA VARIÁVEL EM FUNÇÃO DE OUTRAS ......................... 15
ELIMINAR LINHAS E VARIÁVEIS .......................................................... 16
IMPORTAÇÃO DE FICHEIROS EXTERNOS .............................. 17
IMPORTAÇÃO DE FICHEIROS LOTUS E EXCEL 4.0 ........................... 17
IMPORTAÇÃO DE FICHEIROS DE DBASE ........................................... 18
IMPORTAÇÃO DE FICHEIROS EXCEL ................................................. 19
IMPORTAÇÃO DE FICHEIROS ACCESS ............................................... 22
RECODIFICAÇÃO DE VALORES ........................................................... 22
SELECÇÃO DE CASOS ........................................................................... 25
ANÁLISE DE DADOS ......................................................................... 29
3.1 3.1.1 3.1.2 3.1.3 3.1.4 -
4-
OBTER ESTATÍSTICAS DESCRITIVAS ....................................... 29
PROCEDIMENTO DESCRIPTIVES ........................................................ 29
PROCEDIMENTO EXPLORE ................................................................. 32
PROCEDIMENTO EXPLORE COM FACTORES .................................... 36
PROCEDIMENTO FREQUENCIES ........................................................ 39
GRÁFICOS ................................................................................................. 44
4.1 -
GRÁFICOS STANDARDIZADOS .................................................... 44
GRÁFICO DE BARRAS ........................................................................... 45
HISTOGRAMA ........................................................................................ 50
GRÁFICO DE EXTREMOS-E-QUARTIS ................................................. 52
GRÁFICO DE BARRA DE ERROS .......................................................... 54
GRÁFICOS DE PROBABILIDADES........................................................ 56
GRÁFICO DE DISPERSÃO ..................................................................... 59
4.2 EDIÇÃO DOS GRÁFICOS STANDARDIZADOS........................ 62
4.3 GRÁFICOS INTERACTIVOS ............................................................ 65
4.3.1 GRÁFICO DE BARRAS ........................................................................... 66
4.3.2 GRÁFICO DE DISPERSÃO ..................................................................... 70
4.4 EDIÇÃO DE GRÁFICOS INTERACTIVOS ................................... 75
4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 -
ESACB
i
SPSS
55.1 5.2 5.3 6-
Índice
TESTES T ......................................................................................................... 79
TESTE T PARA A MÉDIA DE UMA AMOSTRA...................................... 82
TESTE T PARA DUAS AMOSTRAS INDEPENDENTES ......................... 83
TESTE T PARA DUAS AMOSTRAS EMPARELHADAS ......................... 86
ANÁLISE DE VARIÂNCIA ........................................................................... 90
6.1 - ENSAIOS UNI-FACTORIAIS ...................................................................... 90
6.1.1 - PROCEDIMENTO ONE-WAY ANOVA ................................................. 91
6.1.2 - PROCEDIMENTO MEANS.................................................................... 96
6.2 - ENSAIOS MULTI-FACTORIAIS................................................................. 99
77.1 7.2 7.3 7.4 8-
REGRESSÃO LINEAR ................................................................................. 111
INTRODUÇÃO............................................................................................ 111
REGRESSÃO LINEAR SIMPLES.............................................................. 115
REGRESSÃO LINEAR MÚLTIPLA .......................................................... 121
AJUSTAMENTO DE MODELOS PRÉ-DEFINIDOS................................ 131
MANUSEAR OS RESULTADOS................................................................. 136
ANEXOS ..................................................................................................................... 143
ESACB
ii
SPSS
1-
1 - Introdução
INTRODUÇÃO
O pakage estatístico SPSS para Windows é um poderoso sistema de análises estatísticas e
manuseamento de dados, num ambiente gráfico, em que a utilização mais frequente, para a
maioria das análises a efectuar, se resume à selecção das respectivas opções em menus e
caixas de diálogo. Contudo, o sistema dispõe de um editor de comandos, a que o utilizador
mais avançado poderá recorrer a fim de realizar determinado tipo de análises mais
complexas e elaboradas.
De um modo muito sucinto, o sistema SPSS dispõe de:
Data Editor: Editor de Dados: uma versátil folha de cálculo, que permite definir,
introduzir, modificar, corrigir e visualizar a informação. O Data Editor abre
automaticamente quando se entra no SPSS.
Viewer:
ESACB
Janela de Resultados: Todos os resultados estatísticos, tabelas, gráficos, são
visualizados numa janela designada por Viewer. Uma janela Viewer abre
automaticamente na primeira vez que o utilizador executar uma tarefa que
gera output.
Na figura seguinte apresenta-se o aspecto da janela de resultados referentes
ao cálculo das estatísticas elementares um conjunto de dados (variável com
o nome fosfo). O Viewer é composto por duas janelas: à esquerda está um
organigrama do output; à direita estão os resultados propriamente ditos.
Neste exemplo, os resultados incluem as instruções necessárias à execução
1
SPSS
1 - Introdução
da tarefa: é o que se designa por Log1, e que é composto pelas seguintes
linhas de instruções:
DESCRIPTIVES
VARIABLES=fosfo
/STATISTICS=MEAN SUM STDDEV VARIANCE RANGE MIN MAX SEMEAN KURTOSIS SKEWNESS .
Estas instruções foram geradas, no caso, pela selecção de opções nos menus
do programa; contudo, podem ser digitadas, como se de uma linguagem de
programação se tratasse2.
Pivot Tables: Tabelas Dinâmicas: O programa dispõe de uma potente rotina de geração de
tabelas dinâmicas (ou pivot tables), que permitem que o utilizador explore
os dados, com o re-arranjo de colunas e linhas.
Gráficos:
O SPSS permite realizar todos os tipos de gráficos usuais em estatística, a
fim de realçar as análises efectuadas.
Acesso a Bases de Dados: O SPSS permite o acesso às bases de dados mais usuais, em
formato SQL e ODBC, tais como ficheiros de dados criados em dBase,
Access, Excel, Lotus, etc. A importação de ficheiros de texto, Access,
Excel, é feita através de um assistente de importação (wizard).
1
2
ESACB
O Log pode não estar visível; só aparece na janela Viewer se se tiver configurado o programa para
mostrar este item.
O utilizador pode escrever as suas próprias rotinas de análise; para tal, deve abrir o SPSS Syntax
Editor, janela de edição de comandos do SPSS.
2
SPSS
2-
2 - Edição de Dados
EDITOR DE DADOS
O Data Editor do SPSS é um programa do tipo de folha de cálculo que permite facilmente
criar ou editar ficheiros de dados. O Data Editor abre automaticamente quando se entra no
SPSS.
O aspecto inicial do editor é o seguinte:
Muitas das características do data editor do SPSS são similares ás de qualquer folha de
cálculo em ambiente Windows, tal como o Excel.
As colunas correspondem às variáveis. Inicialmente, todas as colunas, ou variáveis, tem o
mesmo nome genérico, var, tal como é mostrado na imagem. O utilizador irá dar os nomes
às variáveis que definir.
As linhas correspondem aos casos, ou indivíduos.
Cada célula contém um valor ou observação de um indivíduo, em relação a uma
determinada característica ou variável. As células podem apenas conter valores (numéricos
ou alfanuméricos); não é possível, tal como se faz nas folhas de cálculo, definir fórmulas
em células. O SPSS permite definir fórmulas, mas que afectam integralmente toda uma
variável ou coluna.
O ficheiro de dados é rigorosamente rectangular, sendo o seu tamanho definido pelo
número de casos e de variáveis. O utilizador pode introduzir valores em células fora das
ESACB
3
SPSS
2 - Edição de Dados
fronteiras actuais da folha de cálculo; contudo, o SPSS automaticamente acrescenta linhas
e/colunas de modo a que essa nova observação fique incluída dentro da estrutura
rectangular. A fim de ilustrar este aspecto, considere a seguinte imagem referente a um
folha de dados do SPSS, em que existem duas variáveis (com os nomes x e y), com 6 casos
ou observações. Repare na posição da célula activa.
Se se introduzir um valor (por exemplo, 25) para esta célula, fora dos limites do ficheiro
rectangular, o SPSS cria duas novas variáveis numéricas atribuindo-lhes automaticamente
os nomes var00002 e var00003, e introduz valores em branco para as células, de modo a
ficar um ficheiro rectangular, com 4 variáveis e 7 casos (repare que estas células têm o
ponto decimal):
Estas células, aparentemente vazias, são assumidas pelo SPSS como “missing values”, isto
é, observações em falta para algumas variáveis. Contudo, e para já, estas células não
afectam os cálculos estatísticos, caso se se trate de variáveis numéricas. Por exemplo,
calculando a média da variável x obter-se-á o valor de 15, como é lógico, para os valores
apresentados.
ESACB
4
SPSS
2 - Edição de Dados
2.1 - CRIAR UM FICHEIRO DE DADOS
Vamos usar os seguintes dados a fim de ilustrar como se cria um ficheiro com o Data Editor
do SPSS. Trata-se dos resultados de um ensaio, em que se registaram as produções (kg/ha)
de arroz, em função da variedade (V1: IR8; V2: IR5; V3: C4-63) e de 5 níveis de adubação
azotada (N0: 0 kg/ha; N1: 60 kg/ha; N2: 90 kg/ha; N3: 120 kg/ha; N4: 150 kg/ha). Para
cada tratamento fizeram-se 4 repetições.
Na imagem seguinte, capturada do Excel, estes dados estão perceptíveis para o leitor, e
estão estruturados para algumas possíveis análises a executar na folha de cálculo; contudo,
ao serem introduzidos para um ficheiro SPSS, dever-se-ão respeitar as normas deste
programa, de modo a que os dados possam ser analisados.
Variedade Azoto
N0
N1
V1
N2
N3
N4
N0
N1
V2
N2
N3
N4
N0
N1
V3
N2
N3
N4
1
3852
4788
4576
6034
5874
2846
4956
5928
5664
5458
4192
5250
5822
5888
5864
Repetição
2
3
2606
3144
4936
4562
4454
4884
5276
5906
5916
5984
3794
4108
5128
4150
5698
5810
5362
6458
5546
5786
3754
3738
4582
4896
4848
5678
5524
6042
6264
6056
4
2894
4608
3924
5652
5518
3444
4990
4308
5474
5932
3428
4286
4932
4756
5362
Como se referiu atrás, os dados deverão ser introduzidos para uma matriz rectangular, em
que as colunas são as variáveis e as linhas os casos. Neste caso, as variáveis são a
Variedade, o Azoto, a Repetição e a Produção.
2.1.1 - DEFINIÇÃO DE VARIÁVEIS
Vamos começar por definir estas variáveis no SPSS dando-lhes nomes válidos; as regras
para os nomes das variáveis são:
•
•
•
•
•
ESACB
nome da variável tem no máximo, 8 caracteres;
nome da variável deve começar por uma letra; os restantes caracteres podem ser
letras (maiúsculas ou minúsculas são iguais), algarismos, ou os símbolos @, #, _, $.
Não se podem usar espaços em branco, nem os seguintes caracteres: !, ?, ‘, “, *, +, -,
%, vírgula, ponto e vírgula, \, /, >, <
Os nomes não podem terminar com ponto;
Evitar terminar o nome com o caracter _ (underscore);
Evitar usar caracteres acentuados ou com til.
5
SPSS
2 - Edição de Dados
No exemplo, vamos definir as seguintes variáveis:
variedad
azoto
repete
producao
Variável numérica inteira, cujos valores são 1, 2, 3, com as seguintes
correspondências, a fim de facilitar a sua introdução:
1 : IR8; 2 : IR5; 3 : C4-64;
Variável inteira: 0: 0 kg/ha; 1: 60 kg/ha; ... ; 4: 150 kg/ha;
Variável inteira, com os valores 1, 2, 3, 4
Variável real, com duas casas decimais (por defeito).
A fim de definir cada uma das variáveis, fazer o seguinte procedimento:
Duplo click na célula do nome da variável (var) no topo da coluna, ou click em qualquer
sítio da coluna para a variável e seleccionar no menu a opção Data, seleccionando depois a
opção Define Variable...
Igualmente pode fazer click com o botão direito na célula do nome da variável (var) no
topo da coluna; aparece o menu:
onde se selecciona a opção Define Variable...
Na sequência de qualquer dos procedimentos anteriores aparece a seguinte caixa de diálogo
de definição da variável:
ESACB
6
SPSS
2 - Edição de Dados
No campo Variable Name escrever o nome da variável; no caso, variedad
Seleccionar a opção
No campo Decimal Places alterar o valor para 0 (casas decimais); e fazer
.
Seleccionar a opção
No campo Value escrever o valor 1; no campo Value Label: escever IR8; fazer
ESACB
:
7
SPSS
2 - Edição de Dados
Repetir o processo de definição de Value e Value Label para os valores 2 (IR5) e 3 (C463); para cada valor, fazer
No final, fazer
:
.
A caixa
serve para entrar uma breve descrição
da variável, mais elucidativa que apenas o nome; é de preenchimento facultativo.
Para aceitar estas alterações, e terminar a definição da variável variedad, na caixa de
diálogo fazer OK:
ESACB
8
SPSS
2 - Edição de Dados
De modo idêntico, definir as restantes variáveis; note-se que a opção Labels serve para
fazer as correspondências, de modo que neste exemplo só é usada para as variáveis
variedad e azoto; na definição da variável producao, não é necessário ir à opção Type
porque, por defeito, as variáveis são numéricas reais (com duas casa decimais).
Terminada a definição de variáveis, o Data Editor terá o seguinte aspecto:
2.1.2 - INTRODUÇÃO DOS VALORES
Definidas as variáveis, introduzem-se os dados; o utilizador deve optar pela estratégia de
introduzir os valores coluna a coluna, ou linha a linha, que lhe for mais favorável e menos
propensa a erros.
Para apagar um valor, colocar o cursor na célula respectiva e carregar a tecla DEL. Para
alterar ou corrigir um valor errado numa das células, activa-se essa célula (levando o cursor
para lá, ou simplesmente fazendo click) e digita-se o valor correcto, fazendo-o entrar com
Enter ou deslocando para outra célula.
O ficheiro ficará com o seguinte aspecto:
ESACB
9
SPSS
2 - Edição de Dados
Usou-se a codificação dos valores das variáveis variedad e azoto, por um lado para facilitar
a introdução dos valores, e por outro lado para ser menos propenso a erros. Contudo, podem
visualizar-se o nome da variedade e o valor da adubação; para tal, no menu principal
seleccionar a opção
, e depois seleccionar a opção Value Labels:
O ficheiro de dados toma agora o aspecto mais elucidativo acerca dos dados a analisar:
ESACB
10
SPSS
2 - Edição de Dados
2.1.3 - GRAVAR O FICHEIRO DE DADOS
Tendo introduzido e corrigido os dados, grava-se o ficheiro com um nome válido (aplicamse as regras de nomes de ficheiros de MS-DOS). Para gravar, faz-se:
Na caixa escreve-se o nome a dar ao ficheiro, por exemplo arroz; automaticamente é
atribuída a extensão .sav típica dos ficheiros de dados do SPSS:
Caso se pretenda guardar o ficheiro num disco ou directório que não do directório activo,
abrir a caixa
pretendido:
ESACB
e seleccionar o disco/directório
11
SPSS
2 - Edição de Dados
2.1.4 - ABRIR UM FICHEIRO DE DADOS EXISTENTE
Se se pretende abrir um ficheiro de dados, para introduzir mais dados, para alterar ou
corrigir valores, ou para efectuar a análise desses dados, tem de se abrir o ficheiro. Para tal,
efectua-se o seguinte procedimento:
Se o ficheiro pretendido aparece na listagem, faz-se click sobre o nome do ficheiro, ou
escreve-se na caixa
se
, e de seguida faz-
.
Caso o nome do ficheiro não conste na listagem, é porque está guardado noutro directório
que não o especificado na janela. Nesta situação, ter-se-á de encaminhar para a
drive/directório onde se encontra.
Para tal, abre-se a o caixa
disco ou o directório pretendido:
, e selecciona-se a o
Como o SPSS apenas admite um ficheiro de dados aberto, ao abrir um ficheiro o programa
encerra o ficheiro actual. Caso este não esteja gravado, após quaisquer alterações, o
programa apresenta uma mensagem de aviso:
ESACB
12
SPSS
2 - Edição de Dados
O utilizador deverá responder Sim ou Não, consoante queira guardar ou não as alterações
efectuadas no ficheiro aberto (no caso da imagem, tinha-se aberto o ficheiro lambs.sav, em
que se tinham efectuado alterações).
2.1.5 - ACESCENTAR NOVOS CASOS A UM FICHEIRO DE DADOS
Para acrescentar um novo caso, após os dados já introduzidos, basta digitar o valor
pretendido para a variável a acrescentar; automaticamente é acrescentado um caso a todas
as variáveis.
Se interessa introduzir um caso, não no final dos dados, mas entre duas observações, então
ter-se-á de introduzir uma linha (caso) entre essas duas observações.
Admitamos que foi esquecido um caso referente a hora=Manhã; este caso deveria ser
introduzido imediatamente antes da primeira observação da Tarde; para tal, faz-se duplo
click sobre o indicador da linha 5, ou um click em qualquer parte da linha 5 e de seguida
selecciona-se a opção
no menu. Aparece a janela:
Pode igualmente fazer click com o botão direito do rato sobre o indicador da linha,
aparecendo o menu:
ESACB
13
SPSS
2 - Edição de Dados
. Automaticamente é aberta uma
No menu anterior deve seleccionar
linha, onde se introduzem os valores respectivos das variáveis:
2.1.6 - ACRESCENTAR NOVAS VARIÁVEIS
Para acrescentar uma nova variável ao ficheiro, basta colocar o cursor numa célula da
primeira coluna não usada, e executar o procedimento de definição de variáveis atrás
descrito. O programa cria a nova variável com tantas células (em branco ou missing values)
quantos os casos das restantes variáveis. Após isto, só há que proceder à introdução dos
valores.
Se, por algum motivo, há que introduzir uma nova variável, não no final do ficheiro, mas
entre duas variáveis já definidas, colocar o cursor na variável à direita da qual se pretende a
nova variável, seleccionar a opção
e de seguida
fazer click com o botão direito do rato, aparecendo o menu:
e seleccionar a opção
. Pode igualmente
.
De seguida, definir esta variável, tal como descrito atrás.
ESACB
14
SPSS
2 - Edição de Dados
2.1.7 - DEFINIR UMA VARIÁVEL EM FUNÇÃO DE OUTRAS
O programa SPSS permite criar novas variáveis como resultado de funções ou operações
envolvendo as variáveis já existentes.
Por exemplo, determinadas metodologias estatísticas (análise de variância, regressão, etc)
baseiam-se no pressuposto de que os dados a analisar seguem a função de distribuição
normal; ora, tal pressuposto, é muitas vezes violado (e, infelizmente para a validade das
conclusões, não é testado). Nas situações em que se verificou a não normalidade, é
frequente proceder a determinadas transformações dos dados (logaritmo, raíz quadrada,
arc-seno são transformações usuais).
Vamos ilustrar a criação de uma nova variável no ficheiro arroz.sav, com o nome ln_prod,
definida como sendo o logaritmo neperiano dos valores da variável producao.
Para tal, coloca-se o cursor na primeira célula da primeira coluna não ocupada, e faz-se:
Aparece a seguinte caixa de diálogo:
Na caixa Target Variable escreve-se o nome da variável a criar, ln_prod; transfere-se o
cursor para a caixa Numeric Expression e na caixa das funções selecciona-se a função
LN(numexpr); de seguida, fazer click sobre a variável argumento (producao). A janela fica
com o seguinte aspecto:
ESACB
15
SPSS
2 - Edição de Dados
Para calcular, basta fazer
.
O ficheiro fica com o seguinte aspecto:
A variável ln_prod é visualizada com 2 casas decimais (por defeito), muito embora seja
guardada com maior precisão. Caso haja interesse em visualizar mais casa decimais,
proceder como descrito na definição de variáveis.
As transformações de variáveis podem ser mais complexas que uma simples função; reparese que a caixa de definição das transformações apresenta o que se parece a uma máquina de
calcular científica, que permite definir transformações várias, incluindo selecção
condicional de casos (if), funções lógicas (e &; ou |; negação ~) comparações (<, <=, >, >=,
=, ~=), etc.
2.1.8 - ELIMINAR LINHAS E VARIÁVEIS
Para eliminar linhas de valores (casos) ou colunas (variáveis), fazer click sobre o número da
linha, à esquerda do ecran, ou sobre o nome da variável; a linha ou coluna, consoante o
caso, ficam seleccionadas (sombreadas). Para a eliminar, seleccionar
e de seguida
(ou carregar na tecla DEL).
ESACB
16
SPSS
2 - Edição de Dados
Pode também fazer click com o botão direito do rato sobre a identificação da linha ou
coluna a eliminar, e fazer Cut ou Clear.
2.2 - IMPORTAÇÃO DE FICHEIROS EXTERNOS
O programa SPSS dispõe de uma rotina de importação de ficheiros criados noutras
aplicações, nomeadamente folhas de cálculo (Lotus 123, Excel), bases de dados (dBase,
Access), ficheiros ASCII (separados por tabulações, vírgula, espaços), etc.
Vamos abordar a importação de ficheiros Excel e Access, por serem duas das aplicações
actualmente mais usadas na constituição de bases de dados, e ficheiros ASCII, pois não
havendo outra forma de transferir informação entre aplicações, todos os programas
permitem exportar e importar ficheiros ASCII, sendo esta forma uma ponte comum entre as
aplicações.
É pressuposto que, qualquer que tenha sido a aplicação utilizada para criar os ficheiros,
estes devem estar organizados de acordo com a estrutura dos ficheiros SPSS.
2.2.1 - IMPORTAÇÃO DE FICHEIROS LOTUS E EXCEL 4.0
Se o ficheiro tiver sigo gravado em Excel 4, Lotus 123 (ou Quattro), o SPSS abre-o
automaticamente. Para tal, executar o seguinte procedimento:
File
Open...
Nesta janela deve especificar-se que o ficheiro é do tipo Excel (*.xls) [se se tratar de um
ficheiro Lotus, selecciona-se a opção Lotus(*.w*)]; para tal, abrir a caixa Ficheiro do tipo e
especificar Excel (*.xls):
ESACB
17
SPSS
2 - Edição de Dados
Na caixa Procurar em deve especificar-se o directório onde se encontra o ficheiro:
No campo Nome do ficheiro, especificar o nome do ficheiro a importar e fazer OK:
Aparece de seguida a seguinte caixa de diálogo, onde se especifica se as primeiras células
contêm os nomes das variáveis (se sim activar
(rectangular) de células (no exemplo, A1:B11):
) e o intervalo
O SPSS cria um ficheiro, com tantas variáveis quantas as colunas e tantos casos quantas as
linhas do bloco especificado.
2.2.2 - IMPORTAÇÃO DE FICHEIROS DE DBASE
Dada a relevância da utilização do gestor de bases de dados dBase III, é natural que alguns
utilizadores disponham de bases de dados organizadas neste programa, e que pretendam
importá-las para o SPSS a fim de executar algumas análises estatísticas.
Os ficheiros gerados pelo dBase III (*.dbf) obedecem tipicamente à estrutura dos ficheiros
SPSS, de modo que a sua importação é extremamente fácil. Para tal, faz-se o seguinte
procedimento:
File
Open...
Na caixa de diálogo, deve definir-se o tipo de ficheiro [dBase (*.dbf)], o directório onde
está guardado e o nome do ficheiro a importar, tal como se mostra na figura:
ESACB
18
SPSS
Ao fazer
2 - Edição de Dados
a importação processa-se automaticamente.
2.2.3 - IMPORTAÇÃO DE FICHEIROS EXCEL
Os ficheiros Excel 5.0 e Excel 97 são constituídos por diversas folhas de cálculo; a rotina de
importação é ligeiramente diferente, e é assegurada pelo protocolo Open Database
Connectivity (ODBC), que é um método padrão de partilha de dados entre bases de dados e
outros programas. Os controladores ODBC utilizam a linguagem SQL (Structured Query
Language) padrão para aceder a dados de origens exteriores.
Pretende-se importar a seguinte folha de cálculo, criada em Excel 97:
ESACB
19
SPSS
2 - Edição de Dados
Para tal, executar o seguinte procedimento:
File
Database Capture
New Query...
Aparece o seguinte assistente de importação de ficheiros:
) e fazer
Especificar qual a origem do ficheiro (no caso
caixa de diálogo que se segue, especificar o disco, directório e o ficheiro a abrir:
. Na
Aparece a seguinte janela:
ESACB
20
SPSS
2 - Edição de Dados
Caso o ficheiro tenha diversas folhas de cálculo, será conveniente confirmar qual é que se
pretende importar; para visualizar as variáveis de cada folha, click sobre o sinal + à
esquerda da identificação:
Tendo confirmado qual a folha a importar (neste caso, Folha1$), click sobre o nome da
folha e arraste-o para campo Retrieve Fields :
ESACB
21
SPSS
2 - Edição de Dados
Para executar a importação, click em Terminar.
2.2.4 - IMPORTAÇÃO DE FICHEIROS ACCESS
Os ficheiros de bases de dados criados em Microsoft Access são constituídos por diversas
folhas ou tabelas (base de dados, consultas, formulários); a rotina de pelo protocolo Open
Database Connectivity (ODBC), que é um método padrão de partilha de dados entre bases
de dados e outros programas. Os controladores ODBC utilizam a linguagem SQL
(Structured Query Language) padrão para aceder a dados de origens exteriores, e processase em tudo de modo semelhante à importação de ficheiros Excel, sendo guiada pelo mesmo
assistente (wizard):
File
Database Capture
New Query...
Aparece o seguinte assistente de importação de ficheiros:
Especificar qual a origem do ficheiro (no caso
Seguinte. Depois, é prosseguir tal como descrito para o Excel.
) e fazer
2.2.5 - RECODIFICAÇÃO DE VALORES
ESACB
22
SPSS
2 - Edição de Dados
Ao fazer a importação de ficheiros externos, acontece que variáveis alfanuméricas são
importadas como tal, causando posteriormente problemas em determinadas análises. Isto
acontece, por exemplo, quando se importam variáveis de agrupamento ou definição de
classes, ou variáveis nominais, do género de variável sexo, que agrupa os casos em
masculino e feminino. Em situações deste género, é natural que posteriormente haja
necessidade de agrupar os casos por sexo (genericamente por classes), nomeadamente para
comparar médias de sub-amostras.
Para contornar esta questão, a fazer a importação destas variáveis, há que recodificá-las em
variáveis nominais, com códigos numéricos, por exemplo masculino=1, feminino=2, à
semelhança do que se fez na introdução das variáveis variedad e azoto.
Vamos ilustrar usando o ficheiro pulso.sav, que se criou pela importação do ficheiro
pulso.dbf do dBase. Neste ficheiro, as variáveis sexo (Homem, Mulher) e fuma (Fuma,
Não Fuma) são alfanuméricas, mas nitidamente com uma conotação de agrupamento em
classes.
Vamos recodificar a variável sexo (Homem=1, Mulher=2) e fuma (Fuma=1, Não Fuma=2).
Para tal, executar o seguinte procedimento (por variável a recodificar):
Transform
Recode
Into Same Variable
Na caixa de diálogo seguinte, seleccionar a variável a recodificar (sexo):
Seleccionar
identificando
. Na caixa de diálogo seguinte definir as recodificações,
em
o
o novo valor a atribuir; fazer
ESACB
valor
antigo
a
recodificar,
e
em
.
23
SPSS
2 - Edição de Dados
Repetir para o outro valor da variável (Mulher=2). No final, a caixa de diálogo mostra as
recodificações a efectuar:
No final, fazer
e OK. As alterações são executadas.
Seguidamente, deve alterar-se o tipo de variável para numérica, e definir as “labels”:
1=Homem; 2=Mulher, tal como já anteriormente explicado:
ESACB
24
SPSS
2 - Edição de Dados
Fazer o mesmo procedimento para a outra variável a recodificar.
No final, aparentemente não houve alterações: a variável sexo contém os valor Homem e
Mulher, como anteriormente; só que, após esta transformação, estas variáveis têm a
conotação de agrupamento de casos, coisa que não acontecia tal como resultaram da
importação do ficheiro de dados externo ao SPSS.
2.2.6 - SELECÇÃO DE CASOS
Por vezes, há necessidade de proceder a análises sem a inclusão de todos os casos contidos
nas variáveis em jogo. Uma situação típica é ter-se verificado que há valores “outliers”, isto
é, valores extremos muito elevados ou muito baixos, que provavelmente são registos mal
efectuados, ou eventualmente observações anómalas que, incluídas nas análises estatísticas,
vão distorcer a validade das conclusões. Desta forma, poderá ser preferível excluí-las das
análises, mas sem as eliminar do ficheiro de dados.
A detecção de “outliers” será efectuada no procedimento EXPLORE (cap. 3).
Vamos ilustrar com a exclusão do caso nº 6 do ficheiro pulso.sav, em que a observação
correspondente à variável ritmod é 265, valor impossível para a característica em análise,
sendo provável que tenha acontecido um lapso no acto de registo dos valores. Pretende-se
excluir todo este caso das análises subsequentes, sem contudo o eliminar do ficheiro, pois
poderá haver necessidade de posteriormente efectuar análises sobre as outras variáveis (por
exemplo, ritmoa), cujo valor (96) é perfeitamente normal.
Para tal, fazer:
Data
Select Cases...
ESACB
25
SPSS
2 - Edição de Dados
Pretende-se excluir o caso nº 6 da análise, isto é, incluir na análise todos os casos com
excepção do caso nº 6. Para tal, na caixa de diálogo seleccionar
definir que se seleccionam para análise todos os cados diferenntes do caso nº 6:
, e
A indicação caso ~= 6 significa todos os casos excepto o caso 6.
O Data Editor do SPSS criou automaticamente uma variável designada filter_$, em que
indica quais os casos seleccionados e os não incluídos. Repare-se que a linha 6 está traçada,
indicando que este caso está excluído de futuras análises:
ESACB
26
SPSS
2 - Edição de Dados
A variável filter_$ é uma variável numérica, cujos valores são 0=”Not Selected” e
1=”Selected”. No ecran, aparecem visualizados as labels dos valores, caso se tenha optado
por este modo de visualização.
A fim de incluir novamente o caso 6 nas análises, fazer:
Data
Select Cases...
ou digitar o valor 1 na célula 6 da variável filter_$.
Por exemplo, querendo seleccionar os casos referentes aos homens (sexo=1) que fumam
(fuma=1), dever-se-á fazer o seguinte procedimento:
Data
Select Cases...
ESACB
27
SPSS
2 - Edição de Dados
Para definir a condição atrás referida, seleccionar a variável sexo, defini-la como sendo
igual a 1; o operador lógico e (AND) é simbolizado pelo caracter &; seleccionar a variável
fuma e defini-la igual a 1:
Fazer
ESACB
para avançar.
28
SPSS
3-
3 - Análise de Dados
ANÁLISE DE DADOS
Vamos iniciar a utilização do SPSS a fim de efectuar diversas análises estatísticas. Antes de
iniciar um processo de análise, os dados a analisar devem estar carregados na memória do
computador.
Vamos ilustrar utilizando o ficheiro arroz.sav que deverá estar carregado na memória do
computador.
3.1 - OBTER ESTATÍSTICAS DESCRITIVAS
Esta rotina calcula as estatísticas elementares (média, moda, mediana, variância, etc) de
uma variável numérica. No exemplo, a única variável susceptível de ser analisada é a
variável producao.
3.1.1 - PROCEDIMENTO DESCRIPTIVES
Para obter as estatísticas elementares de uma variável numérica, fazer:
Aparece a seguinte caixa de diálogo, onde se definem as variáveis a analisar; no presente
caso, será apenas a variável producao:
ESACB
29
SPSS
3 - Análise de Dados
Para seleccionar as variáveis a analisar, click sobre o nome da variável na listagem que
aparece na caixa esquerda, e de seguida click no botão
. Ficará com o seguinte aspecto:
A fim de definir quais os parâmetros estatísticos a estimar, seleccionar
se a seguinte caixa de diálogo:
, obtendo-
Inicialmente, estariam seleccionadas apenas a Mean (média), Std. deviation (desvio
padrão), Minimum (mínimo) e Maximum (máximo); vamos seleccionar também a Sum
ESACB
30
SPSS
3 - Análise de Dados
(soma de todas as observações), Variance (variância), Range (intervalo de variação),
s
S.E.mean (erro padrão da média: s x =
), Kurtosis (curtose ou achatamento), Skewness
N
(enviesamento ou assimetria). As opções Display Order só têm significado nos casos em
que se procede ao cálculo de parâmetros de mais do que uma variável.
No final, fazer
e depois
.
O programa abre o Viewer (janela de resultados), com o aspecto:
Na janela direita estão os resultados; como se pediu o cálculo de muitos parâmetros, o
quadro de resultados demasiado largo para caber no ecran; use a barra de scroll para ler o
quadro de resultados
Caso tenha interesse em imprimir os resultados, o SPSS resolve o problema da largura,
fraccionando o quadro em vários.
Repare que ficou no SPSS Viewer; para voltar ao Data Editor do SPSS, onde está aberto o
ficheiro arroz.sav, restaure a janela
na barra Iniciar do Windows:
O SPSS permite capturar os resultados visualizados no Viewer e colá-los por exemplo, no
relatório que está a ser escrito no editor de texto Word; no processador de texto, pode
seleccionar-se a tabela e fazer o ajuste automático, de modo a que o quadro, demasiado
largo, caiba na largura do texto. Contudo, resulta mais elegante se não for necessário reduzir
ESACB
31
SPSS
3 - Análise de Dados
muito a largura do quadro original. Para tal, a solução é obter menos parâmetros estatísticos,
de modo que o quadro de resultados seja menos largo.
3.1.2 - PROCEDIMENTO EXPLORE
Em caso de necessidade de apresentar todos os parâmetros estatísticos, estes podem ser
obtidos noutra rotina do SPSS, cujo quadro de resultados se desenvolve na vertical, sendo
mais fácil inclui-los no relatório em Word. Vamos ilustrar esta opção.
A opção EXPLORE calcula os parâmetros estatísticos, e elabora o gráfico caule-e-folhas
(esquema de histograma) e o gráfico de extremos-e-quartis, muito útil para analisar a
amostra em termos de concentração ou dispersão dos valores por intervalos quartílicos, bem
como a sua simetria; além disso, é uma boa ferramenta de verificar se há observações
“outliers”, isto é, observações extremas que se afastam muito da gama média dos valores da
amostra. Opcionalmente, podem obter-se outras análises, como veremos.
Na caixa de diálogo que se segue, selecciona-se a variável a analisar (producao) tal como
descrito atrás. De seguida, seleccionar o botão
ESACB
32
SPSS
3 - Análise de Dados
Seleccionando o botão
, verifica-se que o cálculo das estatísticas descritivas está
activado; pode-se optar por verificar analiticamente a existência de “outliers”, bem como
calcular os percentis. A opção M-estimators destina-se ao cálculo de parâmetros estatísticos
(média e variância) ponderados; geralmente esta opção só interessa em utilizações muito
específicas. No final, fazer
.
Voltando à caixa de diálogo Explore, seleccionar a opção
e fazer
.
Na janela Explore seleccionar a opção fazer
ESACB
; seleccionar a opção
para obter os resultados.
33
SPSS
3 - Análise de Dados
Note-se que os resultados vêm na sequência dos resultados obtidos anteriormente, de modo
que durante a sessão de trabalho, os resultados vão-se acumulando, podendo o utilizador em
qualquer momento seleccionar os que lhe interessam.
Utilize a barra se scroll vertical para visualizar os resultados, ou na caixa do organigrama
dos resultados, à esquerda, seleccione os que lhe interessa visualizar. Por exemplo, para ver
os parâmetros estatísticos, click sobre
:
Esta opção, além dos parâmetros estatísticos obtidos no procedimento DESCRIPTIVES,
calcula o intervalo de confiança para a média, e a média após eliminar as 5% observações
inferiores e as 5% observações superiores (5% Trimmed Mean).
De seguida apresentam-se o histograma, diagrama de caule-e-folhas (steam-and-leaf) e
diagrama de extremos-e-quartis (Boxplot) referentes a esta análise.
ESACB
34
SPSS
3 - Análise de Dados
Histogram
10
8
6
Frequency
4
2
Std. Dev = 952.52
Mean = 4956.5
N = 60.00
0
.0
00
6 5 0.0
5
6 2 0.0
0
6 0 0.0
5
5 7 0.0
0
5 5 0.0
5
5 2 0.0
0
5 0 0.0
5
4 7 0.0
0
4 5 0.0
5
4 2 0.0
0
4 0 0.0
5
3 7 0.0
0
3 5 0.0
5
3 2 0.0
0
3 0 0.0
5
2 7 0.0
0
25
Producao
Producao Stem-and-Leaf Plot
Frequency
3.00
3.00
5.00
6.00
13.00
7.00
18.00
5.00
Stem width:
Each leaf:
ESACB
Stem &
2
3
3
4
4
5
5
6
.
.
.
.
.
.
.
.
Leaf
688
144
77789
111234
5556778889999
1223344
555666678888899999
00024
1000.00
1 case(s)
35
SPSS
3 - Análise de Dados
7000
6000
5000
4000
3000
2000
N=
60
Producao
3.1.3 - PROCEDIMENTO EXPLORE COM FACTORES
Os resultados anteriores referem-se à globalidade das produções, e têm o interesse que o
utilizador pretender retirar deles.
Numa situação como a que estamos a analisar, teria igualmente interesse executar estas
análises, não para a globalidade das observações, mas sim repartidas por um ou mais dos
factores.
Vamos executar o procedimento EXPLORE, obtendo os resultados para cada uma das três
variedades (poderia ser para os cinco níveis de azoto, ou para os dois factores em
simultâneo).
ESACB
36
SPSS
3 - Análise de Dados
Na caixa de diálogo que se segue, selecciona-se a variável a analisar (producao) tal como
descrito atrás. Seleccionar a variável variedad para o campo Factor List:
A partir deste ponto, o procedimento é análogo ao atrás descrito. Os resultados têm o
seguinte aspecto:
A seguir apresenta-se a listagem completa dos resultados do procedimento:
ESACB
37
SPSS
Descriptives
Variedade
Producao IR8
Mean
95% Confidence Interval for Mean Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
IR5
Mean
95% Confidence Interval for Mean Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
C4-63
Mean
95% Confidence Interval for Mean Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
3 - Análise de Dados
Statistic
4769.4000
4275.7316
5263.0684
4819.3333
4836.0000
1112633.726
1054.8145
2606.00
6034.00
3428.00
1762.0000
-.651
-.441
5042.0000
4593.9109
5490.0891
5085.3333
5410.0000
916664.421
957.4259
2846.00
6458.00
3612.00
1574.5000
-.839
-.076
5058.1000
4657.4878
5458.7122
5081.6667
5091.0000
732706.305
855.9827
3428.00
6264.00
2836.00
1493.5000
-.419
-.921
Std. Error
235.8637
.512
.992
214.0869
.512
.992
191.4035
.512
.992
O diagrama de extremos-e-quartis é apresentado agora para cada uma das três variedades:
ESACB
38
SPSS
3 - Análise de Dados
7000
6000
5000
Producao
4000
3000
2000
N=
20
20
20
IR8
IR5
C4-63
Variedade
Estes resultados podem começar a fornecer pistas para a análise dos dados, do género de
que a variedade C4-63 apresenta uma produção mais homogénea.
3.1.4 - PROCEDIMENTO FREQUENCIES
O procedimento FREQUENCIES permite gerar tabelas de frequências (contagem de casos
quer de variáveis alfanuméricas, quer de variáveis numéricas. Adicionalmente, pode
calcular os parâmetros estatísticos calculados pelos procedimentos DESCRIPTIVES e
EXPLORE, anteriormente vistos; pode igualmente gerar histogramas, com o ajustamento a
uma função de distribuição de probabilidades.
No caso de variáveis numéricas, em que se admite que seguem uma lei de distribuição
normal (pressuposto quase obrigatório para a maioria das metodologias estatísticas usuais
em ciências agrárias), a visualização do ajustamento do respectivo histograma à função de
distribuição normal pode ser uma valiosa ferramenta para análises subsequentes.
A fim de ilustrar, vamos executar dois procedimentos FREQUENCIES: gerar as tabelas de
frequência das variáveis nominais azoto e variedad, e gerar a tabela de frequências da
variável producao, neste caso com o respectivo histograma ajustado à fdp normal.
Seleccionar:
Statistics
Summarize
Frequencies...
Na caixa de diálogo, seleccionar as variáveis variedad e azoto:
ESACB
39
SPSS
3 - Análise de Dados
A opção
permite seleccionar, facultativamente, quais os parâmetros estatísticos a
calcular. No caso de variáveis nominais e alfanuméricas não têm significado.
Os resultados obtidos, que são acrescentados ao Viewer, têm o seguinte aspecto:
Repita-se o procedimento para a variável numérica producao:
Statistics
Summarize
Frequencies...
ESACB
40
SPSS
Vá à opção
3 - Análise de Dados
seleccionar para calcular os decis (com a selecção da opção
), a média, mediana e variância. No final, fazer
De seguida, vá-se á opção
função de distribuição normal:
ESACB
:
para seleccionar o histograma com ajustamento à
41
SPSS
3 - Análise de Dados
Fazer
para avançar, e OK para calcular.
Veja no Viewer os resultados.
O histograma com o ajustamento à f.d.p. normal tem o seguinte aspecto, onde sobressai o
enviezamento da amostra para a direita em relação à distribuição teórica, bem como um
achatamento um pouco maior que o que seria de esperar (isto é, cerca de 75% da amostra
está abaixo da curva, nomeadamente na zona central da distribuição):
Producao
10
8
6
Frequency
4
2
Std. Dev = 952.52
Mean = 4956.5
N = 60.00
0
.0
00
6 5 0.0
5
6 2 0.0
0
6 0 0.0
5
5 7 0.0
0
5 5 0.0
5
5 2 0.0
0
5 0 0.0
5
4 7 0.0
0
4 5 0.0
5
4 2 0.0
0
4 0 0.0
5
3 7 0.0
0
3 5 0.0
5
3 2 0.0
0
3 0 0.0
5
2 7 0.0
0
25
Producao
ESACB
42
SPSS
4-
4 - Gráficos
GRÁFICOS
A representação gráfica dos dados é geralmente uma boa abordagem para as análises
estatísticas a efectuar: a representação de variáveis numéricas em histograma permite inferir
acerca da simetria, achatamento e normalidade da amostra em análise; o gráfico de barras
representando contagens ou percentagens de valores de variáveis permite comparar
visualmente diversas características amostrais; a representação gráfica de duas variáveis que
se julgam correlacionadas num gráfico de pontos ou de dispersão permite definir uma
abordagem prévia à metodologia de regressão; os gráficos de extremos-e-quartis facilitam a
detecção de outliers, além de permitirem analisar a simetria e sub-intervalos de maior
concentração da amostra; etc.
Muitos dos procedimentos estatísticos do SPSS incluem já a elaboração de gráficos
adequados às análises respectivas. Nesta secção, vamos abordar a criação de gráficos
isolados de outros procedimentos.
O programa SPSS permite definir os gráficos por duas vias:
•
gráficos interactivos:
•
gráficos standardizados: esta metodologia permite definir os gráficos, a partir de submenus individualizados no menu Graphs; após criados, estes
gráficos são menos dinâmicos que os gráficos interactivos.
Para editar o gráfico, selecciona-se este na janela Viewer e
abre-se uma janela de edição do gráfico.
disponíveis a partir do sub-menu Interactive do menu
Graphs; a característica principal desta metodologia de gerar
gráficos é a facilidade em intercambiar variáveis entre os
eixos do gráfico, nomeadamente a partir da janela Viewer,
após ter gerado o gráfico. A edição do gráfico faz-se
directamente na janela Viewer.
De seguida vão-se apresentar a definição de alguns tipos de gráficos, tendo como base de
trabalho os dados do ficheiro pulso.sav (listagem em anexo).
Vamos de seguida ilustrar a realização de alguns gráficos. Não se pretende fazer uma
apresentação exaustiva de todos os tipos de gráficos; contudo, os procedimentos para
qualquer outro tipo de gráfico são genericamente semelhantes, de modo que os gráficos
descritos de seguida fornecem bases suficientes para que o utilizador explore e crie qualquer
outro tipo de gráficos.
4.1 - GRÁFICOS STANDARDIZADOS
ESACB
44
SPSS
4 - Gráficos
4.1.1 - GRÁFICO DE BARRAS
Vamos ilustrar criando um gráfico com a contagem de casos de cada uma das idades do
ficheiro pulso.sav. Para tal:
Graphs
Bar ...
Aparece a seguinte caixa de diálogo, onde se selecciona o tipo de gráfico de barras a
executar (Simple: para representar uma única série de valores ou variável; Clustered:
permite representar várias variáveis agrupadas; para cada valor de uma das variáveis são
geradas barras para cada valor da outra variável; Stacked: permite representar várias
variáveis em barras sobrepostas). Vamos iniciar por criar o gráfico de barras simples. Nesta
caixa de diálogo selecciona-se também o tipo de dados (no caso, pretende-se representar a
contagem das idades, isto é, um sumário – contagem – dos dados; para tal, selecciona-se a
opção
Para prosseguir, fazer
).
.
Na janela seguinte, selecciona-se a variável a representar no gráfico para o campo Category
Axis, e define-se que as barras representam a contagem de casos (N of cases):
ESACB
45
SPSS
4 - Gráficos
Para definir os títulos do gráfico, seleccionar
. Escrever o título principal (Title Line 1 e Line 2), sub-título (Subtitle) e notas de rodapé (Footnote – Line 1 e Line 2).
Qualquer destes títulos é facultativo:
No final fazer
ESACB
. O gráfico tem o seguinte aspecto:
46
SPSS
4 - Gráficos
Distribuição das idades dos pacientes
As idades estão expressas em anos completos
10
8
6
Count
4
2
0
19
21
23
25
27
29
31
33
35
38
42
IDADE
Fonte: Abcde, 1998.
Os gráficos de linhas (Line) e área (Area) dão a mesma informação; em vez de barras ou
colunas, é desenhada uma linha unindo os pontos à altura da contagem do número de casos
em cada categoria ou valor do eixo dos xx; no caso do gráfico de áreas, a área definida por
essa linha e o eixo dos xx é preenchida. A definição destes gráficos tem os mesmos passos
do gráfico de barras. A título de exemplo, apresenta-se de seguida o gráfico de área para a
variável idade (o gráfico de linhas seria exactamente o mesmo, sem a área sombreada):
Distribuição das idades dos pacientes
As idades estão expressas em anos completos
10
8
6
Count
4
2
0
19
21
23
25
27
29
31
33
35
38
42
IDADE
Fonte: Abcde, 1998.
ESACB
47
SPSS
4 - Gráficos
Poderá ter interesse ver a distribuição de idades por sexo, isto é, fazer a separação das
idades por sexo; para tal, na janela Bars Chart selecciona-se a opção Clustered. Aparece a
seguinte janela, onde se seleccionam a variável a representar em barras (idade) e a variável
de agrupamento (sexo):
Todo o restante procedimento é semelhante. O gráfico resultante é o seguinte:
Distribuição das idades dos pacientes por sexo
As idades são expressas em anos completos
5
4
3
2
Count
SEXO
1
Homem
0
Mulher
19
21
23
25
27
29
31
33
35
38
42
IDADE
Fonte: Abcde, 1998
O gráfico de barras pode também usar-se para comparar visualmente a média (ou outro
parâmetro estatístico) de duas ou mais variáveis da mesma natureza. Para exemplificar,
vamos elaborar o gráfico de barras referente às médias das variáveis ritmoa e ritmod. Para
tal:
ESACB
48
SPSS
4 - Gráficos
Graphs
Bar ...
Na janela de diálogo seguinte, seleccionar o tipo Simple (só uma série de barras) e a opção
(isto é, cada barra representa um parâmetro estatístico de uma
variável):
Para prosseguir, fazer
. Na janela seguinte, seleccionar as variáveis a representar:
Veja-se que, por defeito, será representada a média (mean) das variáveis. Pretendendo
representar outro parâmetro, fazer
(seleccionando individualmente cada
uma das variáveis, ou seleccionando todas as variáveis em simultâneo – para tal, manter o
botão esquerdo pressionado e arrastar sobre o nome das variáveis a seleccionar). Aparece a
seguinte caixa de diálogo, onde se define o parâmetro a representar. Veja-se que pode
seleccionar-se um parâmetro estatístico (primeiro bloco da janela), ou então o número (ou
ESACB
49
SPSS
4 - Gráficos
percentagem) de casos acima ou abaixo de um valor a definir (bloco central), ou entre dois
valores a definir (último bloco)3:
Definir os títulos como referido previamente. O gráfico tem o seguinte aspecto:
Ritmo cardíaco antes e após exercício físico
Valores médios
160
140
120
100
Mean
80
60
RITMOA
RITMOD
Fonte: Abcde, 1998
4.1.2 - HISTOGRAMA
3
Os campos Value, Low, High só são activados após seleccionar uma opção do respectivo bloco de
opções.
ESACB
50
SPSS
4 - Gráficos
O histograma é um gráfico parecido ao de barras, só que o eixo dos xx é escalar contínuo,
representando classes de uma variável numérica, e não categorias como no caso do gráfico
de barras. As barras representam as frequências absolutas registadas no intervalo ou classe
definido no eixo dos xx.
O histograma traduz a distribuição de frequências, sendo possível analisar a simetria e o
achatamento da amostra.
Para ilustrar a elaboração do histograma, vamos usar a variável ritmoa do ficheiro
pulso.sav. Executar o seguinte procedimento:
Graphs
Histogram ...
Aparece a seguinte caixa de diálogo, onde se selecciona a variável numérica a representar
no eixo dos xx do histograma:
Seleccionando a opção
ao histograma.
Para definir os títulos do gráfico, seleccionar
ESACB
, é sobreposta a curva de distribuição normal
, tal como descrito anteriormente.
51
SPSS
4 - Gráficos
Histograma das frequências absolutas
Ritmo cardíaco
14
12
10
8
6
4
Std. Dev = 9.54
2
Mean = 76.0
N = 40.00
0
60.0
65.0
70.0
75.0
80.0
85.0
90.0
95.0
RITMOA
Fonte: Abcde, 1998
4.1.3 - GRÁFICO DE EXTREMOS-E-QUARTIS
O diagrama de extremos-e-quartis, ou caixa-com-bigodes, é uma útil representação gráfica
dos dados na detecção de outliers, e na análise da simetria e de sub-intervalos de
concentração da amostra de valores.
O gráfico baseia-se na localização dos quartis (1º quartil, 2º quartil ou mediana, 3º quartil),
que definem assim 4 sub-intervalos, cada um com 25% das observações: 1º intervalo
quartílico, delimitado pelo xmin e quartil1; 2º intervalo quartílico, delimitado pelo quartil1 e
quartil2; 3º intervalo quartílico, definido pelo quartil2 e quartil3; 4º intervalo quartílico,
desde o quartil3 ao xmax.
São considerados outliers as observações que fiquem abaixo do limite definido pela
expressão q1 − 1.5 × (q3 − q1 ) ou acima do limite q3 + 1.5 × (q3 − q1 ) ; caso existam outliers,
o limite do “bigode” do diagrama passa a ser a observação extrema que se situe dentro dos
limites dos outliers atrás definidos.
Para criar o diagrama de extremos-e-quartis, executar o seguinte procedimento (vamos usar
a variável ritmoa do ficheiro pulso.sav):
Graphs
Boxplot ...
Na caixa de diálogo seguinte seleccionar a opção Simple, já que se trata de uma única
variável, e a opção
para criar um diagrama de extremos-equartis da variável ritmoa para cada categoria de uma outra variável (vamos usar a variável
sexo para definir as categorias). Seleccionar a opção
ESACB
se se
52
SPSS
4 - Gráficos
pretender criar o gráfico com todos os dados da variável ritmoa, sem separar pelas
categorias da variável sexo:
Fazer
para continuar. Na seguinte caixa de diálogo, seleccionar a variável
numérica a representar no gráfico (ritmoa), e a variável para definir as categorias (sexo):
O resultado é o seguinte:
Case Processing Summary
Valid
RITMOA
ESACB
SEXO
Homem
Mulher
N
22
18
Percent
100.0%
100.0%
Cases
Missing
N
Percent
0
.0%
0
.0%
Total
N
22
18
Percent
100.0%
100.0%
53
SPSS
4 - Gráficos
100
15
90
10
38
80
RITMOA
70
60
50
N=
22
18
Homem
Mulher
SEXO
Repare-se que no caso dos homens, há duas observações outliers, que são assinaladas fora
dos “bigodes” do diagrama; o “bigode” chega, neste caso, até à observação mais alta, mas
que não seja outlier (valor 80). Repare-se que é indicado o número de observações para
cada uma das categorias (N=22 para os homens; N=18 para as mulheres).
4.1.4 - GRÁFICO DE BARRA DE ERROS
Um gráfico de barra de erros representa um intervalo de confiança para a média de uma
variável numérica de uma amostra (ou sub-amostras definidas pelas categorias de uma
variável categórica). O intervalo de confiança é definido por uma das seguintes expressões
(entre parentesis são indicadas as respectivas opções a seleccionar durante a definição do
gráfico – ver à frente):
x ± t (α , N −1) .
s
•
, em que t ( a , N −1) é o quantil α da distribuição t-Student
N
Confidence interval for mean);
•
x ± k .s x , em que s x =
s
N
é o erro padrão da média e k ∈ Ν
(opção
(opção
Standard
error of mean);
•
x ± zα .s , em que z α é o quantil α da distribuição normal reduzida N(0,1) (opção
Standard deviation).
Vamos ilustrar a criação deste tipo de gráfico usando a variável ritmoa do ficheiro
pulso.sav, sub-dividida pelas duas categorias (Homem, Mulher) da variável sexo:
ESACB
54
SPSS
4 - Gráficos
Graphs
Error Bar ...
Na caixa de diálogo seguinte seleccionar a opção Simple, já que se trata de uma única
variável, e a opção
para um gráfico da variável ritmoa para
cada categoria de uma outra variável (sexo). Seleccionar a opção
se se pretender criar o gráfico com todos os dados da variável ritmoa, sem separar pelas
categorias da variável sexo:
Fazer
para continuar. Na seguinte caixa de diálogo, seleccionar a variável
numérica a representar no gráfico (ritmoa), e a variável para definir as categorias (sexo):
Na caixa Bars Represent deve seleccionar-se o tipo de intervalo de confiança que se
pretende (definidos anteriormente). Para pequenas amostras, o mais usual é o intervalo de
confiança para a média (Confidence interval for mean). O nível de confiança é de 95% (o
utilizador pode definir outro nível de confiança).
ESACB
55
SPSS
4 - Gráficos
Para definir os títulos do gráfico, seleccionar
.
O gráfico tem o seguinte aspecto:
Intervalo de confiança a 95% para a média do ritmo cardíaco
(por categoria sexo)
90
95% CI RITMOA
80
70
60
N=
22
18
Homem
Mulher
SEXO
Fonte: Abcde, 1998
4.1.5 - GRÁFICOS DE PROBABILIDADES
Os gráficos de probabilidades (P-P: Probability Plots) visualizam graficamente o
ajustamento de uma variável a uma função de distribuição de probabilidades.
Este tipo de gráficos representa no eixo dos xx as frequências relativas acumuladas
observadas na amostra (observed cummulative probability) e no eixo dos yy a função de
distribuição de probabilidades esperada (expected cummulative probability). A diagonal
do gráfico (x=y) representa um ajustamento perfeito da amostra à função de distribuição de
probabilidades. Quanto mais os pontos se afastam da diagonal, ou se se distribuem segundo
um determinado padrão, menor é o ajustamento da amostra à distribuição teórica.
O SPSS pode fazer o gráfico P-P de ajustamento às seguintes distribuições: beta, chiquadrado, exponencial, gamma, Laplace, Logistic, Log-normal, normal, semi-normal,
Pareto, t-Student, Weibull e uniforme.
Vamos ilustrar ajustando a variável ritmoa à distribuição de probabilidades normal, com
média x (parâmetro de localização) e variância s 2 (parâmetro de escala), estimados a partir
da amostra:
Graphs
P-P ...
ESACB
56
SPSS
4 - Gráficos
permite seleccionar a distribuição teórica de probabilidades. As
O campo
frequências acumuladas teóricas ou esperadas são calculadas por expressões
matematicamente definidas, e todas relacionadas com o “ranking” das observações (isto é,
com a ordem desde 0 – correspondente a xmin - a n – correspondente a xmax), sendo o método
Blom o mais usual. Quando há observações repetidas (ties), a sua ordem pode ser definida
pela ordem da observação média (
), ou pela ordem mais elevada (High) ou da
observação mais baixa (Low) da observação repetida.
O resultado é o seguinte:
PPlot
MODEL:
MOD_3.
Expected
Normal
quantiles
calculated
using
proportional
estimation formula and assigning the mean to ties.
Blom's
For variable RITMOA...
Normal distribution
scale=9.5379135
ESACB
parameters
estimated:
location=75.95
57
SPSS
4 - Gráficos
Normal P-P Plot of RITMOA
1.00
.75
Expected Cum Prob
.50
.25
0.00
0.00
.25
.50
.75
1.00
Observed Cum Prob
Detrended Normal P-P Plot of RITMOA
.10
.08
.06
Deviation from Normal
.04
.02
0.00
-.02
-.04
-.06
0.0
.2
.4
.6
.8
1.0
Observed Cum Prob
O output inclui, além do gráfico de ajustamento à normal (onde se observa um afastamento
com comportamento cíclico em relação à diagonal), um gráfico do ajustamento dos resíduos
(yobs-yest); se a amostra é perfeitamente normal, os resíduos distribuir-se-ão segundo uma
faixa horizontal em torno do zero, sem denotar qualquer padrão de distribuição; no
exemplo, é nítido um comportamento cíclico em torno do zero, denotando algum
afastamento em relação à normal.
ESACB
58
SPSS
4 - Gráficos
4.1.6 - GRÁFICO DE DISPERSÃO
O gráfico de dispersão (scatterplot) é um gráfico de pontos, representando num plano (x,y)
N pares de valores numéricos escalares, que permite analisar a distribuição conjunta das
duas variáveis.
Este tipo de gráficos é muito útil como metodologia prévia de análise a problemas de
regressão, quando se tenta ajustar uma função y=f(x), que estabelece uma relação de
dependência entre as duas variáveis.
Permite igualmente detectar observações outliers bi-variadas, isto é, observações que se
afastam do contexto das restantes observações, mesmo que, analisadas isoladamente em
relação a cada variável, não se suspeite desses outliers.
No eixo dos xx representa-se a variável independente ou causal, e no eixo dos yy a variável
dependente, resposta ou efeito.
A fim de ilustrar, vamos usar as variáveis ritmoa (x) e ritmod (y), pensando a priori que o
ritmo cardíaco após exercício físico está relacionado com o ritmo cardíaco em repouso do
mesmo indivíduo.
Graphs
Scatter ...
Nesta janela, deve seleccionar-se o tipo de gráfico de dispersão a executar:
Simple
Overlay
Matrix
3-D
quando se pretende representar num plano xy uma série de observações bivariadas (x,y); se nessa série existem diferentes categorias, definidas por
uma terceira variável categórica, podem identificar-se os pontos
correspondentes a cada categoria com marcas diferentes;
quando se pretende representar num mesmo plano (x,y) duas ou mais séries
de observações bi-variadas (x,y) da mesma natureza;
quando se pretendem representar os gráficos xy de todas as combinações
possíveis de duas ou mais variáveis; isto é, dispondo de 3 variáveis
genericamente identificadas por x,y,z, esta opção representa os seguintes
gráficos: (x,y), (x,z), (y,z), bem como a imagem simétrica destes gráficos;
este gráfico é útil para uma análise exploratória das associações entre
diversas variáveis;
representa o gráfico espacial a 3 dimensões definido pelos eixos (x,y,z).
O tipo de gráfico mais usual é o Simple. Tendo seleccionado a opção pretendida, fazer
para prosseguir. Na janela seguinte, definir as variáveis a usar em cada um dos
ESACB
59
SPSS
4 - Gráficos
eixos (x: ritmoa; y: ritmod), bem como a variável categórica (sexo) de agrupamento
(opcional):
Definir os títulos como previamente descrito. O gráfico resultante tem o seguinte aspecto:
Ritmo após exercício versus ritmo cardíaco em repouso
Os casos são identificados por sexo
280
260
240
220
200
180
RITMOD
160
SEXO
140
Mulher
120
Homem
100
60
70
80
90
100
RITMOA
Fonte: Abcde, 1998
Nota-se que, aparte da observação no canto superior direito do gráfico, que é um outlier bivariado, todas as outras observações têm uma tendência mais ou menos linear ligeiramente
crescente.
Para ilustrar a matriz de gráficos, com as variáveis idade, ritmoa, ritmod, executar o
procedimento:
ESACB
60
SPSS
4 - Gráficos
Graphs
Scatter ...
Matrix
O gráfico resultante é o seguinte:
Relação entre idade, ritmoa, ritmod
Casos identificados por sexo
IDADE
RITMOA
SEXO
RITMOD
Mulher
Homem
Fonte: Abcde, 1998
ESACB
61
SPSS
4 - Gráficos
4.2 - EDIÇÃO DOS GRÁFICOS STANDARDIZADOS
Quando o gráfico é criado e aparece na janela Viewer do SPSS pode não estar optimizado
em relação a algumas características, nomeadamente cores e padrões de preenchimento
(com particular ênfase se se pretende imprimir ou exportar para outras aplicações).
Para editar o gráfico, a fim de fazer estes pequenos ajustamentos, seleccionar o gráfico
(click sobre o gráfico) na janela Viewer do SPSS e abri-lo com um dos seguintes
procedimentos:
i)
Edit
SPSS Chart Object
Open
ii)
iii)
Click com o botão direito do rato
Aparece o seguinte menu:
Seleccionar SPSS Chart Object
Open
Duplo click com o botão esquerdo do rato
Qualquer dos anteriores procedimentos abre o gráfico numa nova janela, com a designação
SPSS Chart Editor, sobreposta ao Viewer, tal como se ilustra; o gráfico está sombreado na
janela Viewer durante a edição; as alterações efectuadas são reflectidas automaticamente
neste gráfico:
ESACB
62
SPSS
4 - Gráficos
Para alterar um pormenor, por exemplo o padrão de preenchimento das barras, fazer click
sobre uma barra (no Chart Editor); repare-se que automaticamente todas as barras ficaram
seleccionadas (muito embora as marcas sejam colocadas em apenas algumas barras, todas
elas estão seleccionadas):
Para alterar o formato das barras, seleccionar o menu Format:
ESACB
63
SPSS
4 - Gráficos
Neste menu, seleccionar uma das seguintes opções, conforme o objectivo; cada opção abre
uma caixa de diálogo onde o utilizador selecciona a alteração a efectuar; para tomar efeito,
fazer
:
Nota: A barra de ferramentas do SPSS Chart Editor tem os botões de atalho para
as respectivas entradas no menu Format, tal como de seguida se
apresentam:
ESACB
Fill Patern... ou
Alterar o padrão de preenchimento;
Color... ou
Alterar a cor;
Marker... ou
Alterar o tipo de marca ou ponto (no scatterplot);
Line Style... ou
Alterar o tipo (contínua, pontuada) e espessura de linhas;
Bar Style ... ou
Alterar o tipo de barras:
64
SPSS
4 - Gráficos
Alterar as características (fonte e tamanho) do texto (só activo se se se
Text... ou
seleccionou previamente uma região de texto, por exemplo os títulos)
Cada uma das caixas de diálogo tem o botão
alteração.
ou
, para fechar após aplicar a
Para alterar os títulos ou notas de rodapé (ou defini-los, se não o foram durante o
procedimento do elaboração do gráfico), faz-se o seguinte procedimento:
Chart
Title...
(ou Footnote... se se trata de editar as notas de rodapé)
Abre-se a seguinte janela de diálogo, onde o utilizador poderá alterar os títulos (se não
foram previamente definidos os títulos, os respectivos campos aparecem vazios), e o
respectivo alinhamento:
No caso da edição das notas de rodapé, a janela de diálogo é a seguinte:
Após ter efectuado as alterações pretendidas, fechar o Chart Editor para regressar ao
Viewer; para tal, fazer File
Close, ou click no botão
.
4.3 - GRÁFICOS INTERACTIVOS
ESACB
65
SPSS
4 - Gráficos
Como referido no início do capítulo, o SPSS dispõe de uma rotina interactiva de definição
de gráficos, em que a selecção e alteração do tipo de gráficos, variáveis a incluir, e
pormenores, são mais facilmente editados.
Para criar um gráfico interactivo, seleccionar:
Graphs
Interactive
No menu seguinte, selecciona-se o tipo de gráfico a criar:
Vamos ilustrar a criação de um gráfico de barras e de um gráfico de dispersão; para os
restantes tipos, os procedimentos são análogos.
4.3.1 - GRÁFICO DE BARRAS
No menu Interactive selecciona-se a opção Bar... , aparecendo a seguinte janela de
diálogo:
ESACB
66
SPSS
4 - Gráficos
Esta janela é típica dos gráficos interactivos, e representa o “esqueleto” do gráfico, com um
sistema de eixos ortogonais, cada um com um campo, para o qual se selecciona a variável a
usar nesse eixo; alguns campos podem já conter uma variável4 automaticamente assumida
pelo programa; é o que acontece no eixo dos yy, em que o programa propõe representar o
número de casos iguais, ou frequências absolutas (variável $count).
O gráfico pode ser bi-dimensional, ou tri-dimensional; a selecção faz-se com os botões:
gráfico bi-dimensional (plano xy)
gráfico tri-dimensional (espaço xyz)
No caso de um gráfico bi-dimensional, pode ser representado na vertical (
horizontal (
) ou na
).
Seleccionar para o eixo dos xx a variável a representar (sexo):
4
Aparte das variáveis definidas no ficheiro, nesta rotina o programa automaticamente define outras
variáveis, nomeadamente a variável $count (contagem de casos), $pct (percentagem de casos), $case (número
de ordem dos casos). Se a variável é precedida pelo ícon
, trata-se de uma variável categórica; se é
precedida pelo ícon
, é uma variável numérica escalar do ficheiro; se o ícon é
variável escalar definida pelo programa, e não constante no ficheiro.
ESACB
, trata-se de uma
67
SPSS
4 - Gráficos
Para definir os títulos, seleccionar o separador Titles:
O gráfico resultante tem o seguinte aspecto:
ESACB
68
SPSS
4 - Gráficos
Se se pretende visualizar a distribuição, dentro de cada um dos sexos, pela variável fuma,
deve especificar-se esta divisão por categorias, no separador Assign Variables da janela
Create Bar Chart, incluindo a variável para definir as categorias no campo Legend
Variables – Color; o que se está a fazeer, é instruir o programa para usar cores diferentes
para cada uma das categorias da variável fuma:
O gráfico resultante é o seguinte:
ESACB
69
SPSS
4 - Gráficos
4.3.2 - GRÁFICO DE DISPERSÃO
Vamos ilustrar com a criação do gráfico que relaciona o ritmo cardíaco antes de exercício
(ritmoa) com o ritmo cardíaco após exercício (ritmod). Para tal:
Graphs
Interactive
Scatterplot ...
Na janela de diálogo seguinte, definir as variáveis para os eixos dos xx e dos yy; para
identificar os casos por sexo, seleccionar a variável sexo para o campo Legend Variable –
Style (os casos de cada um dos sexos são identificados com uma marca distinta; se se
incluir a variável em Color, para cada um dos sexos é usada uma cor distinta):
ESACB
70
SPSS
4 - Gráficos
Para definir os títulos, seleccionar o separador Titles. O gráfico tem o seguinte aspecto:
ESACB
71
SPSS
4 - Gráficos
O gráfico de dispersão interactivo tem a particularidade de poder ajustar uma equação de
regressão linear aos pontos, na totalidade, sem diferenciação por categorias, ou então para
os pontos de cada uma das categorias definidas por uma variável categórica. Para tal, na
janela de diálogo Create Scatterplot, após identificar as variáveis x e y e a variável
categórica (se se pretender uma equação para cada categoria), seleccionar o separador Fit:
ESACB
72
SPSS
4 - Gráficos
No campo Method, seleccionar a opção Regression; no campo Fit lines for, seleccionar a
se se pretende uma equação para cada um dos casos da variável sexo (a
opção
opção Total, que pode ser seleccionada isolada ou em conjunto com a opção Subgroups,
destina-se a ajustar uma equação a toda a amostra). O resultado é o seguinte:
ESACB
73
SPSS
4 - Gráficos
Para cada uma das sub-amostras definidas pela variável sexo, foi ajustada a equação de
regressão linear, cujas equações, e o respectivo coeficiente de determinação R2, são
apresentadas na figura.
Uma outra possibilidade é apresentar os gráficos por categorias isolados. Para tal, na janela
Create Scatterplot, a variável categórica é seleccionada para o campo Panel Variables (e
não para o campo Legend Variables):
ESACB
74
SPSS
4 - Gráficos
Para ajustar, em cada um dos gráficos, a respectiva equação de regressão, seleccionar no
separador Fit a opção
(já que o ajustamento da equação é feito para
cada um dos gráficos isoladamente). O resultado é o seguinte:
4.4 - EDIÇÃO DE GRÁFICOS INTERACTIVOS
Para editar um gráfico criado com a rotina Interactive, seleccionar o gráfico a editar e fazer
um dos seguintes procedimentos:
i)
Edit
SPSS Interactive Graphic Object
ii)
Click no botão direito do rato; no menu seguinte:
seleccionar SPSS Interactive Graphic Object
iii)
Duplo click com o botão esquerdo do rato sobre o gráfico
O gráfico é editado na janela Viewer do SPSS, tomando o seguinte aspecto:
ESACB
75
SPSS
4 - Gráficos
A área do gráfico em edição, assinalada na margem esquerda por uma seta, está no interior
de uma bordadura tracejada. Não é permitido efectuar modificações em qualquer zona fora
desta bordadura.
Os ícons na borda do gráfico são botões de atalho para as tarefas de edição. Para editar um
elemento do gráfico, deve seleccionar-se previamente, fazendo click sobre esse elemento.
Seguidamente, utiliza-se o botão pretendido:
Espessura de linhas;
Estilo de linhas (contínuas, tracejadas);
Tamanho de marcas ou pontos;
Estilo (forma) de marcas ou pontos;
Padrão de preenchimento de áreas;
Estilo e cor das linhas de bordadura de áreas;
Cor de preenchimento de áreas;
Ferramenta para criar/editar uma caixa de texto;
Ponteiro do rato para seleccção de elementos do gráfico;
Abre a seguinte caixa de diálogo de selecção de variáveis, onde se podem
mudar as variáveis a representar no gráfico:
ESACB
76
SPSS
4 - Gráficos
Permite inserir elementos no gráfico (os elementos que se podem
inserir dependem do tipo de gráfico, e natureza das variáveis em uso):
Botão que permite desfazer a última modificação efectuada no gráfico;
Selecciona a orientação horizontal ou vertical do gráfico;
Dispõe automaticamente na área os elementos do gráfico;
Definição da fonte e tamanho do texto, bold
ou negrito, itálico (só está activo se previamente se tiver seleccionado um
elemento de texto do gráfico).
Além destes botões, que permitem efectuar a maior parte das modificações que o utilizador
normal pretende efectuar no gráfico, os menus Edit, View, Format possibilitam executar
ESACB
77
SPSS
4 - Gráficos
essas mesmas alterações através de menus, e outras modificações que não dispõem de botão
de atalho.
No final, para terminar a sessão de edição do gráfico, basta fazer click sobre uma área do
ecran não pertencente à janela do gráfico.
ESACB
78
SPSS
5-
5 - Testes T
TESTES T
As metodologias estatísticas que envolvem testes de hipóteses acerca de médias de
hipótese designam-se genericamente por testes t.
O SPSS dispõe de três tipos de testes t:
•
Teste t para a média de uma amostra: compara a média de uma amostra com a
média hipotética conhecida de uma população. São apresentados os parâmetros
estatísticos da amostra em análise; igualmente é estabelecido um intervalo de
confiança para ( x − µ ) .
O teste de hipótese subjacente é:
H0 :x = µ
H1 : x ≠ µ
⇔
H0 : x − µ = 0
e a estatística de testes é t =
•
H1 : x − µ ≠ 0
x−µ
σ



N

Teste t para duas amostras independentes: Compara as médias de uma mesma
variável ou característica observada sobre duas amostras independentes de
indivíduos, com a condição de que os indivíduos sejam aleatoriamente atribuídos
aos dois conjuntos em comparação (por exemplo, produção obtida sob um
tratamento versus produção obtida sob outro tratamento diferente, ou de um
modo genérico, controlo versus tratamento). São apresentados os parâmetros
estatísticos das amostras em análise; é efectuado o teste de LEVENE para a
homogeneidade das variâncias das duas amostras; são apresentadas as
estatísticas de teste para as situações de variâncias homogéneas e não
homogéneas; é estabelecido um intervalo de confiança para ( x1 − x 2 ).
O teste de hipótese subjacente é:
H 0 : x1 = x 2
H 1 : x1 ≠ x 2
⇔
H 0 : x1 − x 2 = 0
e a estatística de testes é t =
H 1 : x1 − x 2 ≠ 0
x1 − x 2
 1
1 

s 2 × 
−
 N1 N 2 
O teste de Levene para decidir H 0 : s12 = s 22 H 1 : s12 ≠ s 22 consiste numa análise
de variância aos valores absolutos das diferenças entre os valores observados e a
média de cada uma das amostras.
ESACB
79
SPSS
•
5 - Testes T
Teste t para duas amostras emparelhadas: Compara as médias de duas variáveis
ou características para uma mesma amostra de indivíduos (do género peso antes
versus peso depois de um determinado tratamento). São apresentados os
parâmetros estatísticos para as duas amostras em análise; é calculada a
correlação entre as duas amostras; São apresentados os parâmetros estatísticos
para as diferenças entre as duas amostras emparelhadas; é estabelecido um
intervalo de confiança para ( x1 − x 2 ).
O teste de hipótese subjacente é:
H 0 : x1 = x 2
H 1 : x1 ≠ x 2
⇔
H 0 : x1 − x 2 = 0
e a estatística de testes é t =
H 1 : x1 − x 2 ≠ 0
x1 − x 2
 1
1 

−
s 2 × 
N
N
2 
 1
A fim de ilustrar a realização destes testes vamos usar o ficheiro PULSO.SAV que foi
criado por importação de um ficheiro dBase. Em anexo é fornecida uma impressão do
ficheiro.
Os dados consistem em 40 casos de pacientes (seleccionados aleatoriamente entre os
alunos de uma universidade), homens e mulheres, alguns dos quais fumam e outros não
fumam. Para cada um dos indivíduos foi medido o ritmo cardíaco antes (ritmoa) e após
uma corrida de 1500 m (ritmod). Pretende-se, entre outros objectivos, verificar se há
diferenças entre os ritmos cardíacos antes e após o exercício físico; se há diferenças de
ritmo cardíaco entre homens e mulheres, entre fumadores e não fumadores. Pretende-se
igualmente saber qual o valor indicativo do ritmo cardíaco médio da população dessa
universidade.
Antes de prosseguir para os testes t é aconselhado fazer uma análise exploratória dos
dados, tal como foi ilustrado no capítulo 3. A seguir apresentam-se dois estratos desta
análise, nomeadamente o diagrama de extremos-e-quartis e os valores extremos:
ESACB
80
SPSS
5 - Testes T
300
6
200
100
0
N=
40
RITMOD
Extreme Values
RITMOA Highest
Lowest
RITMOD Highest
Lowest
a Only a partial list
extremes.
ESACB
Case
Value
Number
1
6
96
2
4
96
3
15
92
4
10
90
5
38
90
1
1
62
2
36
62
3
3
64
4
13
66
a
5
39
1
6
265
2
9
160
3
17
158
4
26
158
5
19
156
1
16
112
2
27
116
3
37
116
4
7
120
5
28
120
of cases with the value 66 are shown in the table of lower
81
SPSS
5 - Testes T
Por esta análise pode concluir-se que o caso nº 6 constitui uma observação “outlier” no
referente à observação ritmod: provavelmente, o observador queria registar o valor 165
e, por erro, introduziu 265, valor virtualmente impossível para o ritmo cardíaco de
qualquer humano, mesmo que sujeito a condições in extremis. Contudo, como na
realidade o estatístico não sabe ou que se passou, a melhor estratégia será ignorar este
caso (indivíduo nº 6) sempre que tiver de utilizar a variável ritmod.
5.1 - TESTE T PARA A MÉDIA DE UMA AMOSTRA
Pretende-se verificar se se pode considerar que a média da variável ritmoa da população
universitária em análise pode ser de 80 pulsações por minuto. Isto é, trata-se de dar
resposta ao seguinte teste de hipóteses:
H0 :x = µ
H1 : x ≠ µ
⇔
H0 : x − µ = 0
Para tal, fazer Statistics
Compare Means
H1 : x − µ ≠ 0
One-Sample T Test...
Aparece a seguinte caixa de diálogo, onde se selecciona a variável a analisar (ritmoa), e
o valor hipotético da média da população
ESACB
:
82
SPSS
5 - Testes T
De seguida, seleccionar
a fim de difinir o nível de confiança para ( x − µ ) :
Por defeito, está definido (1-α)=0.95; se o desejar, o utilizador poderá alterar este nível
de confiança. Fazer
e depois OK:
Para um nível de significância de 5%, deve rejeitar-se a hipótese nula de que o ritmo
médio cardíaco da população, com base nesta amostra, possa ser de 80 (pois o p-value
ou significance level da amostra é de 0.011<α=0.05, ou porque |tcalc|=2.686 >
t(0.05,39)=2.021).
O intervalo de confiança para ( x − µ ) ∈ [− 7.01, − 1.00]
5.2 - TESTE T PARA DUAS AMOSTRAS INDEPENDENTES
Pretende-se verificar se, em relação ao ritmo cardíaco antes do exercício físico, há ou
não diferenças entre os fumadores e os não fumadores, isto é:
H 0: x ritmoaFumadores = x ritmoanão fumadres
ESACB
H 1 : x ritmoaFumadores ≠ x ritmoanão fumadres
83
SPSS
Para tal, fazer Statistics
Test...:
5 - Testes T
Compare Means
Independent
Samples
T
Na caixa de diálogo seguinte, seleccionar a variável resposta a analisar (ritmoa); as
duas amostras a comparar são dois sub-grupos desta variável, definidos pela variável
fuma; para tal, seleccionar esta variável para o campo
:
Para definir os sub-grupos ou amostras, seleccionar
; usar os valores
codificados da variável fuma (1=Fuma; 2=Não Fuma) para definir os grupos:
ESACB
84
SPSS
5 - Testes T
No final, fazer
. De seguida, seleccionar
confiança para a diferença entre médias:
a fim de difinir o nível de
e depois OK:
Fazer
Group Statistics
RITMOA
FUMA
Fuma
Não Fuma
N
16
24
Std.
Deviation
12.00
7.72
Mean
76.75
75.42
Std. Error
Mean
3.00
1.58
Independent Samples Test
Levene's Test for
Equality of Variances
F
RITMOA
Equal variances
assumed
Equal variances not
assumed
8.665
Sig.
.006
t-test for Equality of Means
t
Sig.
(2-tailed)
df
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
.429
38
.671
1.33
3.11
-4.96
7.63
.394
23.274
.698
1.33
3.39
-5.67
8.34
No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das
amostras. No segundo quadro apresentam-se os testes de homogeneidade de variâncias
(Levene) e o teste t-Student de comparação das médias das duas amostras.
Começa por analisar-se a homogeneidade das variâncias, isto é, verificar se se devem
considerar homogéneas ou diferentea as variâncias dos dois sub-grupos:
2
2
H 0 : s ritmoa
= s ritmoa
Fuma
Não Fuma
2
2
H 1 : s ritmoa
≠ s ritmoa
Fuma
Não Fuma
concluindo-se que se devem considerar as variâncias não homogéneas, pois p-value
deste teste (0.006) é inferior a um valor α=5% ou mesmo α=1% (isto é, podemos fazer
esta decisão com 99% de probabilidade de acertar). Também se pode decidir este teste,
comparando o valor Fcalc=8.665 com um valor crítico da distribuição F de Snedecor (por
exemplo, para α=5%, F(0.05; 1, 38)=4.105).
5
O teste de Levene é uma anova. Os graus de liberdade totais são N-1=39; pretendem-se
comparar duas amostras, de modo que fica 1 grau de liberdade para as amostras, restando 38 graus de
liberdade para o erro experimental.
ESACB
85
SPSS
5 - Testes T
De seguida, faz-se a decisão do teste t-Student, para a situação de variâncias não
homogéneas, isto é:
H 0: x ritmoaFumadores = x ritmoanão fumadres
H 1 : x ritmoaFumadores ≠ x ritmoanão fumadres
O valor da estatística de teste é t=0.394 < t(0.05; 23) = 2.069, ou p-value = 0.698 > α=5%,
concluindo-se assim que os ritmos cardíacos em repouso, destas duas amostras, são
estatisticamente iguais, para um nível de significância de 5%.
O intervalo de confiança a 95% para a diferença entre as médias é [-5.67 , 8.34],
podendo teoricamente a diferença ser nula.
5.3 - TESTE T PARA DUAS AMOSTRAS EMPARELHADAS
Pretende-se verificar se existem ou não diferenças significativas entre os ritmos
cardíacos antes e depois de realização do exercício físico, isto é:
H 0 : x ritmoa = x rit mod
H 1 :x ritmoa ≠ x rit mod
⇔
H 0 : x ritmoa − x rit mod = 0
H 1 :x ritmoa − x rit mod ≠ 0
Como anteriormente se fez notar, este teste deverá ser efectuando, sem incluir o
indivíduo nº 6, por se suspeitar que o respectivo registo do ritmo cardíaco após
exercício está errado. Para tal, fazer:
Data
Select Cases...
ESACB
86
SPSS
5 - Testes T
Pretende-se excluir o caso nº 6 da análise, isto é, incluir na análise todos os casos com
excepção do caso nº 6. Para tal, na caixa de diálogo seleccionar
definir que se seleccionam para análise todos os cados diferenntes do caso nº 6:
,e
A indicação caso ~= 6 significa todos os casos excepto o caso 6.
O Data Editor do SPSS criou automaticamente uma variável designada filter_$, em que
indica quais os casos seleccionados e os não incluídos. Repare-se que a linha 6 está
traçada, indicando que este caso está excluído de futuras análises:
Note-se que este procedimento de seleccionar casos não é exclusivo nem obrigatório do
procedimento da comparação de médias de duas amostras emparelhadas. É um
procedimento geral a efectuar previamente a qualquer análise em que haja necessidade
de seleccionar ou excluir casos.
De seguida, passa-se então à comparação das médias das duas amostras emparelhadas.
Tal como o nome indica, deve haver pares de observações, de modo que ambas as
amostras têm o mesmo número de observações.
Para tal, fazer Statistics
ESACB
Compare Means
Paired Samples T Test...:
87
SPSS
5 - Testes T
Na caixa de diálogo seguinte, seleccionar as duas variáveis emparelhadas cujas médias
se pretendem comparar:
O botão
serve para definir o intervalo de confiança para a diferença entre as
duas médias (por defeito, (1-α)=0.95).
Os resultados são os seguintes:
Paired Samples Statistics
Pair
1
ESACB
RITMOA
RITMOD
Mean
75.44
137.31
N
39
39
Std.
Deviation
9.08
12.56
Std. Error
Mean
1.45
2.01
88
SPSS
5 - Testes T
Paired Samples Correlations
N
Pair 1
RITMOA & RITMOD
39
Correlation
.544
Sig.
.000
Paired Samples Test
Paired Differences
Pair 1
RITMOA - RITMOD
Mean
-61.87
Std.
Deviation
10.78
Std. Error
Mean
1.73
95% Confidence
Interval of the
Difference
Lower
Upper
-65.36
-58.38
t
-35.858
df
38
Sig.
(2-tailed)
.000
No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das
amostras. Repare-se que foram só levados em conta 39 observações em cada amostra.
O quadro seguinte apresenta o valor do coeficiente de correlação de Pearson entre as
duas variáveis (r=0.544).
No último quadro é apresentado o valor de x ritmoa − x rit mod = −61.87 , o intervalo de
confiança para a diferença entre médias ([-65.36 , -58.38]) e o valor da estatística de
teste t-Student t= -35.858, bem como os graus de liberdade do teste e o valor p-value ou
verdaddeiro nível de significância (0.000). Como |tcalc| = 35.858 > t(0.05,38)=2.025 (ou pvalue=0.000 < α=5%) conclui-se que as médias são significativamente diferentes.
ESACB
89
SPSS
6-
6 - Anova
ANÁLISE DE VARIÂNCIA
6.1 - ENSAIOS UNI-FACTORIAIS
A análise de variância é uma metodologia estatística cujo objectivo é decidir se existem
ou não diferenças significativas entre as médias de várias amostras de uma variável
numérica, definidas por diferentes tratamentos ou níveis de influência de um factor. Esta
metodologia é uma extensão do teste t-Student para duas amostras independentes.
Isto é:
H 0: x1 = x 2 = x3 = ... = xT = µ H 1 : Existem diferenças significativas entre as médias
De um modo muito resumido, a metodologia anova calcula a variabilidade total
existente na característica ou variável em análise, e particiona esta variabilidade como
sendo devida fundamentalmente a duas causas: uma causa determinista, que é o facto de
as amostras serem sujeitas a tratamentos distintos (variabilidade entre tratamentos);
causas aleatórias ou erro experimental, que engloba todas as restantes fontes de
variabilidade, com excepção dos diferentes tratamentos (variabilidade residual ou erro
experimental). Estas variabilidades são estimativas de variância (entre tratamentos, e
residual, respectivamente). Isto é:
Variabilidade Total = Variabilidade entre Tratamentos + Erro Experimental
A estatística de teste é a estatística F, que é uma razão entre variâncias, que sob o
pressuposto de que as observações têm distribuição normal, segue uma distribuição F de
Snedecor:
F=
Variância entre Tratamentos
~ F(α ; glnum ; glden )
Variância Re sidual
Se a estatística F é demasiado grande, então é porque a variância entre tratamentos é
preponderante em relação à variância residual, isto é, os diferentes tratamentos a que a
amostra foi sujeita conduz a resultados estatisticamente diferentes.
Na sequência de uma análise de variância em que se conclua que existem diferenças
significativas entre as médias dos diversos tratamentos em análise, faz-se um teste
suplementar a fim de identificar quais são as médias estatisticamente diferentes. Os
mais usuais são os testes LSD (Least Significant Difference, Diferença Mínima
Significativa), HSD-Tuckey (Honnestly Significant Difference), Scheffé, Duncan.
Vamos ilustrar a metodologia de análise de variância, usando os valores apresentados
no quadro seguinte, referentes às produções obtidas num ensaio em que se pretende
ESACB
90
SPSS
6 - Anova
estudar o efeito da densidade de sementeira, na cultura de arroz (variedade IR8).
Definiram-se 6 densidades de sementeira (kg/ha de semente). Para cada densidade de
fizeram-se 4 repetições. Todos os restantes factores de produção foram mantidos
constantes no ensaio (adaptado de GOMEZ & GOMEZ, 1984).
Densidade
25
50
75
100
125
150
5113
5346
5272
5164
4804
4254
5398
5952
5713
4831
4848
4542
Repetições
5307
4719
5483
4986
4432
4919
4678
5264
5049
4410
4748
4098
A anova simples (ensaios uni-factoriais) pode ser executada no SPSS com dois
procedimentos:
6.1.1 - PROCEDIMENTO ONE-WAY ANOVA
Este é o procedimento que conduz à elaboração típica da análise de variância, e no qual
é possível definir a obtenção de mais resultados no âmbito desta metodologia estatística.
A partir do menu principal do SPSS, seleccionar:
Statistics
Compare Means...
One-Way ANOVA...
Seleccionar para o campo
o nome da variável que contém os valores da
variável que contém os resultados a analisar (no exemplo, producao); no campo
selecciona-se a variável que identifica os diferentes tratamentos (densidad).
Seleccionar a opção
para definir qual ou quais os testes de comparação de
médias a efectuar na sequência da anova. Pode seleccionar-se apenas um ou mais testes.
ESACB
91
SPSS
6 - Anova
No exemplo, pediram-se os testes LSD e Tuckey. O nível de significância é, por defeito,
α=5%, podendo este valor ser definido pelo utilizador:
Fazer
, voltando à janela One-Way ANOVA, onde se pode seleccionar o botão
a fim de definir cálculos adicionais; no caso, pediram-se o cálculo dos
parâmetros estatísticos, a realização do teste de Levene para verificar se as variâncias
dos diferentes tratamentos são homogéneas e representar graficamente as médias dos
diferentes tratamentos:
Os resultados são os seguintes:
ESACB
92
SPSS
6 - Anova
Oneway
Descriptives
Produção (kg/ha)
N
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
Total
4
4
4
4
4
4
24
Std.
Deviation
320.2093
504.7893
284.4414
321.9900
188.4958
360.8798
455.9256
Mean
5124.0000
5320.2500
5379.2500
4847.7500
4708.0000
4453.2500
4972.0833
Std. Error
160.1047
252.3947
142.2207
160.9950
94.2479
180.4399
93.0654
95% Confidence Interval
for Mean
Lower
Upper
Bound
Bound
4614.4755
5633.5245
4517.0176
6123.4824
4926.6402
5831.8598
4335.3920
5360.1080
4408.0611
5007.9389
3879.0097
5027.4903
4779.5628
5164.6038
Minimum
4678.00
4719.00
5049.00
4410.00
4432.00
4098.00
4098.00
Maximum
5398.00
5952.00
5713.00
5164.00
4848.00
4919.00
5952.00
Test of Homogeneity of Variances
Produção (kg/ha)
Levene
Statistic
.418
df1
df2
5
Sig.
.830
18
ANOVA
Produção (kg/ha)
Between Groups
Within Groups
Total
ESACB
Sum of
Squares
2657880.8
2123087.0
4780967.8
df
5
18
23
Mean
Square
531576.167
117949.278
F
4.507
Sig.
.008
93
SPSS
6 - Anova
Post Hoc Tests
Multiple Comparisons
Dependent Variable: Produção (kg/ha)
Tukey HSD
(I) Densidade de
sementeira
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
LSD
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
(J) Densidade de
sementeira
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
125 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
150 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
Mean
Difference
(I-J)
Std. Error
-196.2500
242.8469
-255.2500
242.8469
276.2500
242.8469
416.0000
242.8469
670.7500
242.8469
196.2500
242.8469
-59.0000
242.8469
472.5000
242.8469
612.2500
242.8469
867.0000* 242.8469
255.2500
242.8469
59.0000
242.8469
531.5000
242.8469
671.2500
242.8469
926.0000* 242.8469
-276.2500
242.8469
-472.5000
242.8469
-531.5000
242.8469
139.7500
242.8469
394.5000
242.8469
-416.0000
242.8469
-612.2500
242.8469
-671.2500
242.8469
-139.7500
242.8469
254.7500
242.8469
-670.7500
242.8469
-867.0000* 242.8469
-926.0000* 242.8469
-394.5000
242.8469
-254.7500
242.8469
-196.2500
242.8469
-255.2500
242.8469
276.2500
242.8469
416.0000
242.8469
670.7500* 242.8469
196.2500
242.8469
-59.0000
242.8469
472.5000
242.8469
612.2500* 242.8469
867.0000* 242.8469
255.2500
242.8469
59.0000
242.8469
531.5000* 242.8469
671.2500* 242.8469
926.0000* 242.8469
-276.2500
242.8469
-472.5000
242.8469
-531.5000* 242.8469
139.7500
242.8469
394.5000
242.8469
-416.0000
242.8469
-612.2500* 242.8469
-671.2500* 242.8469
-139.7500
242.8469
254.7500
242.8469
-670.7500* 242.8469
-867.0000* 242.8469
-926.0000* 242.8469
-394.5000
242.8469
-254.7500
242.8469
Sig.
.962
.894
.859
.541
.111
.962
1.000
.408
.170
.023
.894
1.000
.290
.110
.014
.859
.408
.290
.991
.594
.541
.170
.110
.991
.895
.111
.023
.014
.594
.895
.430
.307
.270
.104
.013
.430
.811
.067
.021
.002
.307
.811
.042
.013
.001
.270
.067
.042
.572
.122
.104
.021
.013
.572
.308
.013
.002
.001
.122
.308
95% Confidence Interval
Lower
Upper
Bound
Bound
-968.0352
575.5352
-1027.0352
516.5352
-495.5352
1048.0352
-355.7852
1187.7852
-101.0352
1442.5352
-575.5352
968.0352
-830.7852
712.7852
-299.2852
1244.2852
-159.5352
1384.0352
95.2148
1638.7852
-516.5352
1027.0352
-712.7852
830.7852
-240.2852
1303.2852
-100.5352
1443.0352
154.2148
1697.7852
-1048.0352
495.5352
-1244.2852
299.2852
-1303.2852
240.2852
-632.0352
911.5352
-377.2852
1166.2852
-1187.7852
355.7852
-1384.0352
159.5352
-1443.0352
100.5352
-911.5352
632.0352
-517.0352
1026.5352
-1442.5352
101.0352
-1638.7852
-95.2148
-1697.7852
-154.2148
-1166.2852
377.2852
-1026.5352
517.0352
-706.4525
313.9525
-765.4525
254.9525
-233.9525
786.4525
-94.2025
926.2025
160.5475
1180.9525
-313.9525
706.4525
-569.2025
451.2025
-37.7025
982.7025
102.0475
1122.4525
356.7975
1377.2025
-254.9525
765.4525
-451.2025
569.2025
21.2975
1041.7025
161.0475
1181.4525
415.7975
1436.2025
-786.4525
233.9525
-982.7025
37.7025
-1041.7025
-21.2975
-370.4525
649.9525
-115.7025
904.7025
-926.2025
94.2025
-1122.4525
-102.0475
-1181.4525
-161.0475
-649.9525
370.4525
-255.4525
764.9525
-1180.9525
-160.5475
-1377.2025
-356.7975
-1436.2025
-415.7975
-904.7025
115.7025
-764.9525
255.4525
*. The mean difference is significant at the .05 level.
ESACB
94
SPSS
6 - Anova
Homogeneous Subsets
Produção (kg/ha)
Tukey HSDa
Densidade de
sementeira
150 kg/ha
125 kg/ha
100 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
Sig.
N
4
4
4
4
4
4
Subset for alpha = .05
1
2
4453.2500
4708.0000 4708.0000
4847.7500 4847.7500
5124.0000 5124.0000
5320.2500
5379.2500
.111
.110
Means for groups in homogeneous subsets are displayed.
a. Uses Harmonic Mean Sample Size = 4.000.
Means Plots
5600
5400
Mean of Produção (kg/ha)
5200
5000
4800
4600
4400
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
Densidade de sementeira
O primeiro quadro de resultados contém a médias, desvio padrão e erro padrão da média
e intervalo de confiança da média, mínimo e máximo para cada tratamento.
De seguida é apresentado o teste de homogeneidade de variâncias de Levene:
H 0 : s12 = s 22 = s 32 = s 42
H 1 : As variâncias não são homogéneas
Como F=0.418 < F(0.05;5;18) =2.77, ou p-value=0.83 > α=0.05, conclui-se que as
variâncias são homogéneas, isto é, dentro de cada um dos tratamentos a variabilidade é
apenas devida a causas aleatórias.
O quadro que se segue é a tabela da análise de variância, apresentando a variabilidade
particionada entre os tratamentos (betwen groups) e residual (within groups). Como
F=4.507 > F(0.05;5;18) =2.77, ou p-value=0.008 < α=0.05, conclui-se que existem
diferenças significativas entre as produções médias das 6 densidades de sementeira, com
um nível de significância de 5%.
Contudo, este resultado não nos permite concluir qual ou quais densidades conduzem a
produções médias significativamente diferentes de outras. Para concluir tal, há que
proceder à comparação da média de cada um dos tratamentos com todas as restantes.
esta comparação é feita em termos do valor absoluto das diferenças entre médias: se esta
ESACB
95
SPSS
6 - Anova
diferença entre duas médias é pequena, então as médias não diferem; se a diferença é
grande, então as duas médias são estatisticamente distintas. Este é o princípio de
qualquer teste de comparações múltiplas.
Contudo, há que fixar um critério que defina a fronteira entre o que é uma diferença
grande e uma diferença pequena. Este critério é estabelecido por cada um dos testes
(LSD, Scheffé, Tukey, etc), com base em expressões que relacionam a média das somas
dos quadrados residual (calculada na tabela anova) e com base em funções de
distribuição de probabilidades.
No quadro dos resultados dos testes de comparações múltiplas são identificados com o
símbolo * quais os tratamentos cujas médias diferem significativamente. Repare-se que
ambos os testes acusam como conduzindo a produções médias diferentes densidades de
50 kg/ha e 150 kg/ha (diferença de 867 kg) e 75 kg/ha e 150 kg/ha (diferença de 926
kg). Contudo apenas o teste LSD acusa existirem diferenças entre as produções
alcançadas com 25 e 150 kg/ha (diferença de 670.75 kg), 50 e 125 kg/ha (diferença de
612.25 kg), 75 e 100 kg/ha (diferença de 531.5 kg).
Isto é, o teste LSD acusa como diferentes tratamentos cujas médias estão menos
afastadas do que o teste Tuckey, que dá, por assim dizer, maior margem de dúvida antes
de imputar essas diferenças aos efeitos dos tratamentos.
De seguida aparece um quadro complementar do teste Tukey em que agrupa os
tratamentos em grupos homogéneos, sendo o critério de agrupamento o facto de não
existirem diferenças significativas entre os médias dos tratamentos incluídos no mesmo
grupo. O mesmo tratamento pode pertencer a mais do que um grupo, desde que não
difira dos restantes tratamentos desse grupo. Assim, as densidades de sementeira de
150, 125, 100, 25 constituem um grupo de tratamentos, cujas produções médias são as
mais baixas; as densidades de 125, 100, 25, 50, 75 constituem outro grupo, cujas
produções são as mais altas. É claro que alguns dos tratamentos densidades de 125, 100,
25) pertencem aos dois grupos6.
Em termos absolutos, a densidade de sementeira que conduz a maior produção é a
densidade de 75 kg/ha; contudo, a produção obtida com a densidade de 50 kg/ha não
difere significativamente da anterior, e pode haver vantagens económicas em usar esta
densidade. Contudo, estas são algumas reflexões de índole técnica que competem ao
analista desenvolver, não cabendo propriamente no âmbito deste manual.
No final aparece um gráfico representado as médias dos tratamentos, que pode ser útil
explorar no sentido de compreender os resultados, e deles tirar o proveito no âmbito da
aplicabilidade da Estatística ao delineamento de ensaios agrícolas.
6.1.2 - PROCEDIMENTO MEANS
A partir do menu principal do SPSS, seleccionar:
6
ESACB
Deixa-se ao cuidado do leitor a explicação agronómica destas conclusões.
96
SPSS
6 - Anova
Statistics
Compare Means...
Means...
Seleccionar para o campo
o nome da variável que contém os valores da
variável a analisar (no exemplo, producao); no campo
selecciona-se a
variável que identifica os diferentes tratamentos (densidad).
Seleccionar o botão
a fim de pedir a elaboração da tabela da análise de
variância. Por defeito, são calculados os parâmetros média e desvio padrão; o utilizador
pode seleccionar outras estatísticas a calcular:
Os resultados são os seguintes:
ESACB
97
SPSS
6 - Anova
Means
Case Processing Summary
Cases
Excluded
N
Percent
Included
N
Percent
Produção (kg/ha) *
Densidade de
sementeira
24
100.0%
0
.0%
Total
N
Percent
24
100.0%
Report
Produção (kg/ha)
Densidade de
sementeira
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
Total
Mean
5124.0000
5320.2500
5379.2500
4847.7500
4708.0000
4453.2500
4972.0833
Std.
Deviation
320.2093
504.7893
284.4414
321.9900
188.4958
360.8798
455.9256
N
4
4
4
4
4
4
24
ANOVA Table
Produção (kg/ha) *
Densidade de
sementeira
Sum of
Squares
2657880.8
2123087.0
4780967.8
Between
(Combined)
G
Within Groups
Total
df
Mean
Square
5 531576.167
18 117949.278
23
F
4.507
Sig.
.008
Measures of Association
Eta
Produção (kg/ha) *
Densidade de
sementeira
.746
Eta
Squared
.556
A tabela da anova é idêntica à obtida no procedimento anterior. Contudo, este
procedimento não permite a obtenção dos testes subsequentes que foram obtidos
previamente.
A estatística Eta-Squared é a proporção de variância da variável dependente que é
SS
explicada pelas diferenças entre os tratamentos; é dado pela expressão H (isto é,
SS T
razão entre Soma dos Quadrados entre tratamentos (SSH) e a Soma dos Quadrados total
(SST). A designação de Eta adoptada pelo SPSS no contexto da anova destina-se a não
fazer confusão com o coeficiente de determinação, R2, usado no contexto da regressão
linear, e que pode ser obtido a partir da tabela da anova da regressão pela expressão
anterior.
ESACB
98
SPSS
6 - Anova
6.2 - ENSAIOS MULTI-FACTORIAIS
Os organismos biológicos estão simultaneamente expostos a muitos factores de
crescimento. A resposta de um organismo a um único factor de crescimento pode variar
com o nível de outros factores; assim, os delineamentos uni-factoriais são criticados
pelo seu pequeno leque de aplicabilidade. Na realidade, os resultados dos delineamentos
uni-factoriais são apenas válidos para o caso particular (e extremamente difíceis de
conseguir) de todos os restantes factores serem mantidos constantes.
Neste sentido, quando se espera que a resposta a um factor de interesse varie sob
diferentes níveis de outros factores, devem evitar-se os delineamentos uni-factoriais, e
considerar um delineamento multi-factorial que permita estudar em simultâneo dois ou
mais factores.
Em ensaios factoriais, há a considerar os efeitos de cada um dos níveis de um dos
factores, mantendo os níveis dos outros factores constantes (efeitos simples), os efeitos
de cada um dos factores, abstraindo da presença dos outros factores (efeitos principais)
e interacção entre os níveis dos diversos factores (interacção entre factores).
Diz-se que existe interacção entre dois factores se a resposta a um dos factores varia
consoante os níveis do outro factor.
A fim de ilustrar o procedimento de cálculo da análise de variância multi-factorial,
vamos usar o ficheiro arroz.sav, em que se pretende verificar a influência de três
variedades (IR8, IR5, CA-63) e 5 níveis de adubação azotada (0, 60, 90, 120, 150 kg/ha)
na produção de arroz.
Statistics
General Linear Model
GLM – General Factorial ...
Na caixa de diálogo seguinte, seleccionar a variável dependente a analisar (producao) e
os factores de produção cuja influência se pretende analisar (variedad e adubacao):
ESACB
99
SPSS
De seguida, seleccionar a opção
6 - Anova
a fim de definir o modelo de anova a
calcular. Por defeito, está seleccionada a opção
, que especifica que a tabela
da anova apresentará a os efeitos principais de cada factor, bem como as interacções
o utilizador pode definir
entre factores. É a situação mais usual. Optando por
que a anova apresente apenas os efeitos principais, ou apenas algumas das interacções a
definir.
Por defeito, está definido o método de cálculo da soma de quadrados (tipo III); para
delineamentos em que não haja “missing-values” deve definir-se esta metodologia de
cálculo.
ESACB
100
SPSS
6 - Anova
A opção
deve ser seleccionada (por defeito, está activada). Caso
se assuma que os dados passam pela origem dos eixos (isto é, caso a ausência dos
factores em análise conduzam a valor zero da variável dependente), pode omitir-se esta
opção. Da sua inclusão no modelo resulta a apresentação de mais uma linha inusitada na
tabela da anova, que traduz a variabilidade associada à variável dependente para os
níveis zero dos factores. As restantes linhas da tabela são as usuais.
Fazer
para regressar à janela GLM – General factorial, onde se deve
para representar graficamente as médias de cada um dos
seleccionar
factores e das interacções de factores:
Para seleccionar o gráfico das médias de um factor, definir esse factor em
; fazer
para adicionar esse gráfico; para definir o gráfico das
interacções, seleccionar um factor para Horizontal Axis e outro factor para Separate
Lines. Fazer
para continuar.
Optar por
para definir os testes de comparações múltiplas:
ESACB
101
SPSS
6 - Anova
Fazer
para continuar. Seleccionar
para seleccionar o cálculo de
parâmetros estatísticos, teste de Levene de homogeneidade de variâncias e os intervalos
de confiança para as médias:
Os resultados deste procedimento são os seguintes:
Univariate Analysis of Variance
ESACB
102
SPSS
6 - Anova
Between-Subjects Factors
Variedade
Adubação
Value
Label
IR8
IR5
C4-63
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
1
2
3
0
1
2
3
4
N
20
20
20
12
12
12
12
12
Descriptive Statistics
Dependent Variable: Produção
Variedade
IR8
IR5
C4-63
Total
Adubação
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Total
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Total
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Total
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Total
Mean
3124.0000
4723.5000
4459.5000
5717.0000
5823.0000
4769.4000
3548.0000
4806.0000
5436.0000
5739.5000
5680.5000
5042.0000
3778.0000
4753.5000
5320.0000
5552.5000
5886.5000
5058.1000
3483.3333
4761.0000
5071.8333
5669.6667
5796.6667
4956.5000
Std.
Deviation
532.7939
171.9874
400.2345
334.1237
208.3235
1054.8145
540.9054
443.6124
757.8408
494.9542
217.5462
957.4259
314.1507
414.2411
501.1640
573.7000
385.9374
855.9827
513.9808
331.3680
689.7728
441.1381
271.0335
952.5245
N
4
4
4
4
4
20
4
4
4
4
4
20
4
4
4
4
4
20
12
12
12
12
12
60
a
Levene's Test of Equality of Error Variances
Dependent Variable: Produção
F
1.044
df1
df2
14
45
Sig.
.430
Tests the null hypothesis that the error variance of the
dependent variable is equal across groups.
a. Design: Intercept+VARIEDAD+AZOTO+VARIEDAD *
AZOTO
ESACB
103
SPSS
6 - Anova
Tests of Between-Subjects Effects
Dependent Variable: Produção
Source
Corrected Model
Intercept
VARIEDAD
AZOTO
VARIEDAD * AZOTO
Error
Total
Corrected Total
Type III
Sum of
Squares
44578256a
1.47E+09
1052784.4
41234745
2290726.3
8952613.0
1.53E+09
53530869
df
14
1
2
4
8
45
60
59
Mean
Square
3184161.1
1.47E+09
526392.200
10308686
286340.783
198946.956
F
16.005
7409.078
2.646
51.816
1.439
Sig.
.000
.000
.082
.000
.207
a. R Squared = .833 (Adjusted R Squared = .781)
Estimated Marginal Means
1. Variedade
Estimates
Dependent Variable: Produção
Variedade
IR8
IR5
C4-63
Mean
4769.400
5042.000
5058.100
Std. Error
99.736
99.736
99.736
95% Confidence Interval
Lower
Upper
Bound
Bound
4568.521
4970.279
4841.121
5242.879
4857.221
5258.979
Pairwise Comparisons
Dependent Variable: Produção
(I) Variedade
IR8
IR5
C4-63
(J) Variedade
IR5
C4-63
IR8
C4-63
IR8
IR5
Mean
Difference
(I-J)
-272.600
-288.700*
272.600
-16.100
288.700*
16.100
Std. Error
141.049
141.049
141.049
141.049
141.049
141.049
a
Sig.
.060
.047
.060
.910
.047
.910
95% Confidence Interval
a
for Difference
Lower
Upper
Bound
Bound
-556.686
11.486
-572.786
-4.614
-11.486
556.686
-300.186
267.986
4.614
572.786
-267.986
300.186
Based on estimated marginal means
*. The mean difference is significant at the .05 level.
a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no
adjustments).
ESACB
104
SPSS
6 - Anova
Univariate Tests
Dependent Variable: Produção
Contrast
Error
Sum of
Squares
1052784.4
8952613.0
df
2
45
Mean
Square
526392.200
198946.956
F
2.646
Sig.
.082
The F tests the effect of Variedade. This test is based on the linearly
independent pairwise comparisons among the estimated marginal means.
2. Adubação
Estimates
Dependent Variable: Produção
Adubação
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
ESACB
Mean
3483.333
4761.000
5071.833
5669.667
5796.667
Std. Error
128.759
128.759
128.759
128.759
128.759
95% Confidence Interval
Lower
Upper
Bound
Bound
3223.999
3742.668
4501.666
5020.334
4812.499
5331.168
5410.332
5929.001
5537.332
6056.001
105
SPSS
6 - Anova
Pairwise Comparisons
Dependent Variable: Produção
(I) Adubação
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Mean
Difference
(I-J)
-1277.667*
-1588.500*
-2186.333*
-2313.333*
1277.667*
-310.833
-908.667*
-1035.667*
1588.500*
310.833
-597.833*
-724.833*
2186.333*
908.667*
597.833*
-127.000
2313.333*
1035.667*
724.833*
127.000
(J) Adubação
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
90 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
Std. Error
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
182.093
a
Sig.
.000
.000
.000
.000
.000
.095
.000
.000
.000
.095
.002
.000
.000
.000
.002
.489
.000
.000
.000
.489
95% Confidence Interval
a
for Difference
Lower
Upper
Bound
Bound
-1644.421
-910.913
-1955.254
-1221.746
-2553.087
-1819.579
-2680.087
-1946.579
910.913
1644.421
-677.587
55.921
-1275.421
-541.913
-1402.421
-668.913
1221.746
1955.254
-55.921
677.587
-964.587
-231.079
-1091.587
-358.079
1819.579
2553.087
541.913
1275.421
231.079
964.587
-493.754
239.754
1946.579
2680.087
668.913
1402.421
358.079
1091.587
-239.754
493.754
Based on estimated marginal means
*. The mean difference is significant at the .05 level.
a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no
adjustments).
Univariate Tests
Dependent Variable: Produção
Contrast
Error
Sum of
Squares
41234745
8952613.0
df
4
45
Mean
Square
10308686
198946.956
F
51.816
Sig.
.000
The F tests the effect of Adubação. This test is based on the linearly
independent pairwise comparisons among the estimated marginal means.
ESACB
106
SPSS
6 - Anova
3. Variedade * Adubação
Dependent Variable: Produção
Variedade
IR8
IR5
C4-63
Adubação
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Mean
3124.000
4723.500
4459.500
5717.000
5823.000
3548.000
4806.000
5436.000
5739.500
5680.500
3778.000
4753.500
5320.000
5552.500
5886.500
Std. Error
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
223.017
95% Confidence Interval
Lower
Upper
Bound
Bound
2674.820
3573.180
4274.320
5172.680
4010.320
4908.680
5267.820
6166.180
5373.820
6272.180
3098.820
3997.180
4356.820
5255.180
4986.820
5885.180
5290.320
6188.680
5231.320
6129.680
3328.820
4227.180
4304.320
5202.680
4870.820
5769.180
5103.320
6001.680
5437.320
6335.680
Post Hoc Tests
Variedade
Multiple Comparisons
Dependent Variable: Produção
Tukey HSD
(I) Variedade
IR8
IR5
C4-63
(J) Variedade
IR5
C4-63
IR8
C4-63
IR8
IR5
Mean
Difference
(I-J)
-272.6000
-288.7000
272.6000
-16.1000
288.7000
16.1000
Std. Error
141.0486
141.0486
141.0486
141.0486
141.0486
141.0486
Sig.
.141
.113
.141
.993
.113
.993
95% Confidence Interval
Lower
Upper
Bound
Bound
-614.4488
69.2488
-630.5488
53.1488
-69.2488
614.4488
-357.9488
325.7488
-53.1488
630.5488
-325.7488
357.9488
Based on observed means.
ESACB
107
SPSS
6 - Anova
Homogeneous Subsets
Produção
a,b
Tukey HSD
Variedade
IR8
IR5
C4-63
Sig.
N
20
20
20
Subset
1
4769.4000
5042.0000
5058.1000
.113
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 198946.956.
a. Uses Harmonic Mean Sample Size = 20.000.
b. Alpha = .05.
Adubação
Multiple Comparisons
Dependent Variable: Produção
Tukey HSD
(I) Adubação
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
(J) Adubação
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
120 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
90 kg/ha
150 kg/ha
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
Mean
Difference
(I-J)
-1277.6667*
-1588.5000*
-2186.3333*
-2313.3333*
1277.6667*
-310.8333
-908.6667*
-1035.6667*
1588.5000*
310.8333
-597.8333*
-724.8333*
2186.3333*
908.6667*
597.8333*
-127.0000
2313.3333*
1035.6667*
724.8333*
127.0000
Std. Error
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
182.0929
Sig.
.000
.000
.000
.000
.000
.440
.000
.000
.000
.440
.016
.002
.000
.000
.016
.956
.000
.000
.002
.956
95% Confidence Interval
Lower
Upper
Bound
Bound
-1795.0797
-760.2536
-2105.9131 -1071.0869
-2703.7464 -1668.9203
-2830.7464 -1795.9203
760.2536
1795.0797
-828.2464
206.5797
-1426.0797
-391.2536
-1553.0797
-518.2536
1071.0869
2105.9131
-206.5797
828.2464
-1115.2464
-80.4203
-1242.2464
-207.4203
1668.9203
2703.7464
391.2536
1426.0797
80.4203
1115.2464
-644.4131
390.4131
1795.9203
2830.7464
518.2536
1553.0797
207.4203
1242.2464
-390.4131
644.4131
Based on observed means.
*. The mean difference is significant at the .05 level.
ESACB
108
SPSS
6 - Anova
Homogeneous Subsets
Produção
a,b
Tukey HSD
Adubação
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Sig.
N
12
12
12
12
12
1
3483.3333
Subset
2
3
4761.0000
5071.8333
1.000
.440
5669.6667
5796.6667
.956
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 198946.956.
a. Uses Harmonic Mean Sample Size = 12.000.
b. Alpha = .05.
Profile Plots
Estimated Marginal Means of Produção
5100
Estimated Marginal Means
5000
4900
4800
4700
IR8
IR5
C4-63
Variedade
ESACB
109
SPSS
6 - Anova
Estimated Marginal Means of Produção
6000
Estimated Marginal Means
5000
4000
3000
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Adubação
Estimated Marginal Means of Produção
7000
Estimated Marginal Means
6000
5000
4000
Variedade
IR8
3000
IR5
C4-63
2000
0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
Adubação
ESACB
110
SPSS
7-
7 - Regressão Linear
REGRESSÃO LINEAR
7.1 - INTRODUÇÃO
Muitos estudos estatísticos têm como objectivo estabelecer uma relação, traduzida por
uma equação, que permite estimar o valor de uma variável, em função de outra ou
outras variáveis.
O caso mais simples é traduzir esta relação pela equação de uma recta, quando o
acréscimo de uma variável, designada por dependente e usualmente representada por y,
varia linearmente com os acréscimos provocados noutra variável, designada por
independente, representada por x.
A equação que traduz esta relação é y = a + bx ou y = b0 + b1 x , em que os parâmetros
ou coeficientes são a ordenada na origem, a (ou bo), e o declive, b (ou b1).
Como regra, previamente ao cálculo da regressão linear, deve fazer-se uma análise
gráfica aos dados (gráfico de dispersão ou scatterplot), a fim de ter uma percepção
visual da existência ou não de uma tendência de dependência entre as variáveis, e como
método de detectar possíveis observações outliers ou influentes, que distorçam os
resultados.
A representação gráfica dos dados, num gráfico de pontos (scatterplot) ajuda a
identificar algumas situações em que a equação de regressão linear simples não tem um
ajustamento perfeito. De seguida, ilustram-se algumas destas situações.
Na situação 1, a observação assinalada é um outlier bi-variado, muito embora não o seja
em relação a cada uma das variáveis, já que não é observação extrema. Contudo, o par
(x,y) está deslocado do contexto geral das restantes observações. Em relação às
restantes observações, o gráfico evidencia uma tendência segundo uma recta crescente.
O utilizador deverá verificar os dados e corrigir eventuais registos erróneos, ou
simplesmente desprezar esta observação e efectuar a regressão com os dados restantes.
Note-se que a inclusão desta observação irá provocar uma acentuada variação no
declive da recta.
ESACB
111
SPSS
7 - Regressão Linear
Situação 1
50
0
10
Na situação 2 existe uma observação igualmente muito influente em termos do declive
da recta ajustada. Neste caso, a observação assinalada tem tendência a ser outlier, quer
bi-variado, quer em relação a cada uma das variáveis. Além disso, eliminando esta
observação, resta uma nuvem de pontos, em que não é nítida qualquer tendência de
relação entre as variáveis.
Situação 2
60
0
10
Na situação 3, a variância da variável y não é uniforme, ao longo dos valores em x, isto
é, tomando “fatias” verticais ao longo do eixo dos xx, a dispersão dos valores y vai
aumentando para valores mais elevados de y. Muito embora a normalidade dos dados
não seja um pressuposto obrigatório para a estimativa da regressão linear, é contudo
necessário que os resíduos (yobs – yest) tenham distribuição normal e variância constante.
Nesta situação, estes pressupostos são violados, invalidando as inferências que se façam
a partir da equação estimada.
ESACB
112
SPSS
7 - Regressão Linear
Situação 3
50
0
10
A situação 4 ilustra uma forte relação entre x e y, mas não de tipo linear, pelo que o
ajustamento de uma recta para traduzir esta função de dependência é errada e sem
significado.
Situação 4
12
0
0
16
Na situação 5 recolheram-se observações apenas nas zonas extremas do intervalo de
variação de x, não existindo dados para valores intermédios da variável x. A função de
regressão linear nesta situação é fortemente influenciada pelos valores extremos, mas
não traduz a relação que existe para todo o intervalo de x. Na recolha de dados, deve
haver a preocupação de que a amostragem cubra todo o intervalo de variação de x, de
modo a evidenciar o comportamento da relação no interior desse intervalo.
Situação 5
20
0
0
ESACB
10
113
SPSS
7 - Regressão Linear
O objectivo da regressão linear é estabelecer a função y = a + bx desta recta, que de um
modo muito aproximado permite estimar o valor de y para dado valor de x. O cálculo
dos coeficientes de regressão faz-se pelo método dos mínimos quadrados, que minimiza
2
a soma dos quadrados dos resíduos, isto é, minimiza a função ∑ ( y obs − ŷ ) , em que
ŷ representa o valor estimado pela equação para dado valor x.
No gráfico seguinte representam-se os valores de 24 pares de valores do tipo (x,y), em
que no eixo dos xx está representada a variável % de sólidos insolúveis em água e nos
yy se representa a % total de sólidos, duas características importantes em molho de
tomate (adaptado de DERECK PIKE, 19??; os dados são apresentados em anexo):
60
50
% sólidos no molho
40
30
20
10
11
12
13
14
15
16
17
18
% insolúveis em água
É evidente a tendência do decréscimo da % de sólidos no molho com o aumento da %
de insolúveis em água, segundo uma relação aproximadamente linear. Pretende-se
estabelecer esta relação entre as duas variáveis, com os objectivos de (i) descrever a
relação entre as características para este tipo de molho, e (ii) poder estimar ou prever a
% de sólidos do molho (característica bastante difícil de quantificar) mediante a % de
insolúveis em água que o molho contém (característica relativamente fácil de
determinar).
A equação de regressão linear é uma estatística, e como tal, tem inerente a componente
de erro estatístico. A fim de interpretar a equação estimada, são apresentados uma série
de coeficientes e estatísticas suplementares, que de um modo geral permitem analisar o
maior ou menor grau de rigor com que a equação de regressão traduz a relação entre as
variáveis em estudo.
Um dos coeficientes associados à equação é o coeficiente de correlação linear,
representado por r, que representa, na escala ]-1, 1[, a correlação ou associação entre as
ESACB
114
SPSS
7 - Regressão Linear
duas variáveis; o quadrado deste coeficiente constitui o coeficiente de correlação total,
ou coeficiente de determinação, representado por R2, que traduz, a % de variabilidade
da variável dependente (y) que é explicada pela variável independente (x).
É apresentado o coeficiente de determinação ajustado, que é um estimador não
enviezado de R2 (que tende a ser um estimador sobre-avaliado) definido a partir de R2
pela expressão:
Ra2 = R 2 −
p (1 − R 2 )
N − p −1
em que p é o número de variáveis independentes; no caso da equação de regressão
linear simples y = a + bx , p=1.
São apresentados os intervalos de confiança para os coeficientes a e b, bem como os
erros-padrão e as estatísticas dos seguintes testes de hipóteses:
teste referente ao coeficiente a:
teste referente ao coeficiente b:
H0 : a = 0
H0 : b = 0
H1 : a ≠ 0
H1 : b ≠ 0
O output do procedimento do cálculo da equação de regressão apresenta a tabela da
anova, que constitui um teste de hipóteses à existência ou não de uma relação de
dependência:
H 0 : y não depende de x
H 1 : y depende de x
⇔
H0 : b = 0
H1 : b ≠ 0
A estatística F tem um valor alto quando a variável independente ajuda a explicar a
variabilidade da variável dependente.
Além disso, a tabela da análise de variância fornece a média da soma dos quadrados
dos resíduos, cuja raíz quadrada é o erro padrão da estimativa. A equação de regressão é
tão mais ajustada aos dados, quanto menor for o erro padrão da estimativa,
comparativamente com o desvio padrão da variável dependente.
7.2 - REGRESSÃO LINEAR SIMPLES
Para proceder ao cálculo da equação de regressão linear, executar o seguinte
procedimento7:
Statistics
Regression
7
ESACB
No exemplo usam-se os dados das características do molho de tomate, em que as variáveis são
insoluve (% de insolúveis em água) e solidos (% total de sólidos no molho).
115
SPSS
7 - Regressão Linear
. Aparece a seguinte caixa de diálogo,
No menu anterior, seleccionar a opção
onde se define a variável dependente (solidos) e a variável independente (insoluve) para
os respectivos campos:
Seleccionar o botão
, que abre a seguinte caixa de diálogo, onde se
seleccionam as opções Confidence intervals e Descriptives; as opções Estimates e
Model fit estão activadas por defeito:
ESACB
116
SPSS
7 - Regressão Linear
Fazer
a fim de regressar à janela Linear Regression, onde se selecciona
:
Nesta caixa de diálogo, deve seleccionar
e
para obter
o histograma e o gráfico do ajustamento à normal dos resíduos, a fim de verificar se os
resíduos seguem distribuição normal (pressuposto para a validade da regressão linear)
para verificar a linearidade e a igualdade de variância dos resíduos, efectuar o gráfico
dos resíduos, com os valores estimados standardizados (ZPRED) no eixo dos xx, e os
resíduos standardizados (ZRESID) no eixo dos yy. No final, fazer
regressar à janela Linear Regression.
a fim de
O botão
dá acesso à seguinte caixa de diálogo, onde se podem definir critérios
de seleccção ou remoção de variáveis independentes (só têm efeito em regressão
múltipla):
ESACB
117
SPSS
7 - Regressão Linear
Os resultados do procedimento são os seguintes:
Regression
Descriptive Statistics
% sólidos no molho
% insolúveis em água
Mean
39.7292
13.7775
Std.
Deviation
5.1826
1.8995
N
24
24
Correlations
Pearson Correlation
Sig. (1-tailed)
N
% sólidos
no molho
1.000
-.970
.
.000
24
24
% sólidos no molho
% insolúveis em água
% sólidos no molho
% insolúveis em água
% sólidos no molho
% insolúveis em água
%
insolúveis
em água
-.970
1.000
.000
.
24
24
Variables Entered/Removedb
Model
1
Variables Entered
% insolúveis em águaa
Variables
Removed
.
Method
Enter
a. All requested variables entered.
b. Dependent Variable: % sólidos no molho
ESACB
118
SPSS
7 - Regressão Linear
Model Summaryb
Model
1
R
.970a
Std. Error
of the
Estimate
1.2880
Adjusted R
Square
.938
R Square
.941
a. Predictors: (Constant), % insolúveis em água
b. Dependent Variable: % sólidos no molho
ANOVAb
Model
1
Sum of
Squares
581.272
36.498
617.770
Regression
Residual
Total
Mean
Square
581.272
1.659
df
1
22
23
F
350.378
Sig.
.000a
a. Predictors: (Constant), % insolúveis em água
b. Dependent Variable: % sólidos no molho
Coefficientsa
Unstandardized
Coefficients
Model
1
(Constant)
% insolúveis em água
B
76.193
-2.647
Std. Error
1.966
.141
Standardi
zed
Coefficien
ts
Beta
-.970
t
38.761
-18.718
Sig.
.000
.000
95% Confidence Interval
for B
Lower
Upper
Bound
Bound
72.117
80.270
-2.940
-2.353
a. Dependent Variable: % sólidos no molho
Residuals Statisticsa
Predicted Value
Residual
Std. Predicted Value
Std. Residual
Minimum
27.9714
-1.5871
-2.339
-1.232
Maximum
47.8478
3.1522
1.615
2.447
Mean
39.7292
-3.70E-15
.000
.000
Std.
Deviation
5.0272
1.2597
1.000
.978
N
24
24
24
24
a. Dependent Variable: % sólidos no molho
ESACB
119
SPSS
7 - Regressão Linear
Charts
Histogram
Dependent Variable: % sólidos no molho
7
6
5
4
Frequency
3
2
Std. Dev = .98
1
Mean = 0.00
N = 24.00
0
-1.00
-.50
0.00
.50
1.00
1.50
2.00
2.50
Regression Standardized Residual
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: % sólidos no molho
1.00
Expected Cum Prob
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
Observed Cum Prob
ESACB
120
SPSS
7 - Regressão Linear
Scatterplot
Dependent Variable: % sólidos no molho
Regression Standardized Residual
3
2
1
0
-1
-2
-3
-2
-1
0
1
2
Regression Standardized Predicted Value
A equação da recta estimada é yˆ = 76.193 − 2.647 x , em que x é a % de insolúveis em
água e y é a % de sólidos no molho.
A análise e interpretação pormenorizadas dos resultados deixam-se a cargo do leitor.
Chama-se apenas a atenção para o facto de os resíduos estarem ligeiramente
desajustados da distribuição normal, como está evidenciado no histograma (nota-se um
acentuado enviezamento à esquerda, bem como a falta de resíduos numa das classes
centrais) e no gráfico de ajustamento à normal (um perfeito ajustamento é traduzido
pela diagonal do gráfico; neste caso, os resíduos situam-se sistematicamente acima ou
abaixo desta linha, em diferentes zonas do gráfico). No gráfico dos resíduos
standardizados versus valores previstos standardizados nota-se uma tendência para que
os resíduos se distribuam segundo uma curva ligeiramente côncava.
Estas análise dos resíduos sugerem que o modelo linear ajustado (equação de uma recta)
não é o melhor modelo para traduzir a relação entre estas variáveis; a distribuição dos
resíduos indica que o ajustamento de um modelo linear polinomial de 2ª ordem, com
uma equação do tipo y = a + bx + cx 2 aumentará a precisão da estimativa (que é
traduzida pelo coeficiente de determinação R2=0.941).
O ajustamento a uma equação de segundo grau será abordado no parágrafo seguinte.
7.3 - REGRESSÃO LINEAR MÚLTIPLA
Neste parágrafo será abordada a metodologia de cálculo da equação de regressão linear
múltipla, do tipo y = b0 + b1 x1 + b2 x 2 + b3 x3 + ... + bn x x , em que a variável resposta ou
dependente é função de várias variáveis independentes.
ESACB
121
SPSS
7 - Regressão Linear
Os coeficientes de regressão b1, b2, ..., bn traduzem o declive ou acréscimo na variável
dependente provocado pelo acréscimo unitário de cada uma das variáveis
independentes, x1, x2, ..., xn, respectivamente.
A metodologia que se vai abordar serve igualmente para estimar uma equação de
regressão linear polinomial, do tipo y = b0 + b1 x + b2 x 2 + b3 x 3 + ... + bn x n , em que y
depende, não de diversas variáveis independentes x1, x2, ..., xn, mas de um polinómio da
mesma variável independente x. Neste caso, previamente a efectuar o procedimento da
regressão linear, devem gerar-se as variáveis correspondentes às potências x2, x3, ..., xn a
incluir no modelo. No parágrafo seguinte será abordada uma metodologia diferente que
permite o ajustamento de equações de curvas polinomiais a uma amostra de dados (x,y).
Quando se ajusta um modelo de regressão múltipla, pode acontecer que se justifique
estatisticamente incluir na equação de regressão todas as variáveis independentes, ou
que se incluam apenas algumas destas variáveis explanatórias. Esta decisão é tomada
em função da significância do parâmetro de regressão de cada uma das variáveis, ou
pelo acréscimo do coeficiente de determinação, R2, provocado pela inclusão dessas
variáveis.
De um modo geral, existem duas estratégias a seguir:
(i) começar por incluir todas as variáveis, e analisar a contribuição ou
significância dos coeficientes de regressão de cada uma das variáveis
independentes no modelo; eliminar a variável independente menos
significativa, desde que a sua contribuição seja inferior a determinado limite
(normalmente analisado em termos da estatística F associada a essa variável
na tabela da anova); recalcular de novo o modelo sem esta variável e, se for
caso disso, eliminar nova variável, e assim sucessivamente, até que todas as
restantes variáveis independentes sejam significativas para a precisão do
modelo. Este tipo de estratégia designa-se por processo backward ou
stepback.
(ii) começar por calcular um modelo de regressão simples, y = b0 + b1 x ,
incluindo, se for caso disso, apenas a variável independente cujo coeficiente
de regressão é mais significativo em termos de precisão; analisar a
significância da próxima variável independente mais significativa, e incluíla, se for caso disso; recalcular de novo o modelo; analisar a significância da
próxima variável independente mais significativa, e incluí-la, se for caso
disso, e assim sucessivamente até que mais nenhuma das variáveis
independentes seja significativa. Este tipo de metodologia designa-se por
processo stepwise ou forward.
Pode acontecer que os modelos obtidos por estes dois tipos de metodologias, para a
mesma amostra de valores, não sejam inteiramente coincidentes, nomeadamente quando
alguma ou algumas das variáveis independentes estão muito próximas do limite que
define a significância da sua inclusão ou não inclusão no modelo.
Chama-se a atenção que, por vezes, a inclusão de muitas variáveis explanatórias no
modelo pouco acréscimo trazem em termos de precisão do modelo, e este fica muito
ESACB
122
SPSS
7 - Regressão Linear
pouco funcional e muito fictício ou artificial, isto é, muito bem ajustado à amostra
particular de valores usados para o cálculo da equação, mas pouco adaptável à
população.
Para ilustrar o ajustamento de uma equação de regressão linear múltipla, vamos usar o
seguinte conjunto de dados (adaptado de DRAPPER & SMITH, 1981), em que as
variáveis independentes são a temperatura média mensal (graus Fahrenheit), a produção
mensal (toneladas), o número de dias úteis de trabalho por mês e o número de
empregados, e a variável dependente é o consumo de água (m3), observados numa
determinada empresa fabril:
Temperatura
(ºF)
58.80
65.20
70.90
77.40
79.30
81.00
71.90
63.90
54.50
39.50
44.50
43.60
56.00
64.70
73.00
78.90
79.40
68.40
Produção
mensal
7107.00
8373.00
9796.00
9208.00
14792.00
14564.00
11964.00
13526.00
12656.00
14119.00
15691.00
14571.00
13619.00
14575.00
14556.00
16573.00
15618.00
14346.00
Dias úteis do
mês
20.00
20.00
20.00
20.00
22.00
23.00
21.00
22.00
21.00
21.00
22.00
23.00
22.00
22.00
21.00
22.00
22.00
23.00
Número de
operários
129.00
141.00
153.00
166.00
193.00
189.00
175.00
186.00
190.00
187.00
195.00
206.00
198.00
192.00
191.00
200.00
200.00
185.00
Consumo de
água (m3)
2967.00
2828.00
2891.00
2994.00
3282.00
3498.00
3302.00
3260.00
3211.00
3286.00
3432.00
3425.00
3256.00
3422.00
3250.00
3464.00
3495.00
3568.00
Pretende-se ajustar uma equação do tipo y = b0 + b1 x1 + b2 x 2 + b3 x3 + b4 x 4 que permita
estimar o consumo mensal de água nesta empresa, em função das variáveis
independentes observadas.
Para estimar uma equação de regressão múltipla executar o seguinte procedimento:
Statistics
Regression
ESACB
123
SPSS
7 - Regressão Linear
No menu anterior, seleccionar a opção
. Aparece a seguinte caixa de diálogo,
onde se definem a variável dependente e as todas as variáveis independentes:
No campo das variáveis independentes estão incluídas todas as variáveis explanatórias.
O método de cálculo seleccionado é Enter, que obriga à inclusão de todas as variáveis
independentes no modelo, sejam ou não significativas. Os outros métodos de cálculo
são Stepwise e Forward (métodos de inclusão progressiva de variáveis independentes),
Backward (método de eliminação progressiva de variáveis independentes) e Remove
(método que calcula o modelo sem inclusão de qualquer variável independente, isto é, o
modelo resume-se a yˆ = y ):
A fim de comparar diversos modelos de regressão, vamos começar por incluir todas as
variáveis independentes, optando pelo método Enter; seguidamente, deve repetir-se a
metodologia, e optar por outros métodos de cálculo, nomeadamente Stepwise e
Backward.
Seleccionar o botão
linear simples.
,
e
tal como descrito para a regressão
Os resultados são os seguintes:
ESACB
124
SPSS
7 - Regressão Linear
Regression
Descriptive Statistics
Std.
Deviation
Mean
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
N
3268.3889
218.9502
18
65.0500
13.1334
18
13091.89
21.5000
182.0000
2716.3310
1.0432
21.3514
18
18
18
Correlations
Pearson Correlation
Sig. (1-tailed)
N
Consumo
mensal de
água (m3)
Temperatura
média
mensal (ºF)
1.000
.013
.894
.901
.831
.013
1.000
-.005
-.022
-.080
.894
.901
.831
-.005
-.022
-.080
1.000
.811
.939
.811
1.000
.784
.939
.784
1.000
.
.480
.000
.000
.000
.480
.
.493
.466
.377
.000
.000
.000
.493
.466
.377
.
.000
.000
.000
.
.000
.000
.000
.
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
Produção
mensal
(Ton)
Dias úteis
no mês
Número de
operários
Variables Entered/Removedb
Model
1
Variables Entered
Número de operários,
Temperatura média mensal (ºF),
Dias úteis no amês, Produção
mensal (Ton)
Variables
Removed
Method
.
Enter
a. All requested variables entered.
b. Dependent Variable: Consumo mensal de água (m3)
Model Summaryb
Model
1
R
.945a
R Square
.893
Adjusted R
Square
.860
Std. Error
of the
Estimate
81.8974
Change Statistics
R Square
Change
.893
F Change
27.127
df1
df2
4
13
Sig. F
Change
.000
a.
Predictors: (Constant), Número de operários, Temperatura média mensal (ºF), Dias úteis no mês, Produção mensal (Ton)
b. Dependent Variable: Consumo mensal de água (m3)
ESACB
125
SPSS
7 - Regressão Linear
ANOVAb
Model
1
Sum of
Squares
727772.930
87193.348
814966.278
Regression
Residual
Total
Mean
Square
181943.232
6707.181
df
4
13
17
F
27.127
Sig.
.000a
a. Predictors: (Constant), Número de operários, Temperatura média mensal (ºF),
Dias úteis no mês, Produção mensal (Ton)
b. Dependent Variable: Consumo mensal de água (m3)
Coefficientsa
Standardi
zed
Coefficien
ts
Unstandardized
Coefficients
Model
1
(Constant)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
B
531.302
Std. Error
619.067
.232
1.550
5.027E-02
110.460
-1.709
.023
32.724
2.801
Beta
t
95% Confidence Interval
for B
Lower
Upper
Bound
Bound
-806.111
1868.714
Correlations
.858
Sig.
.406
Zero-order
Partial
Part
.014
.150
.883
-3.117
3.581
.013
.041
.014
.624
.526
-.167
2.166
3.376
-.610
.049
.005
.552
.000
39.765
-7.759
.100
181.156
4.342
.894
.901
.831
.515
.683
-.167
.197
.306
-.055
a. Dependent Variable: Consumo mensal de água (m3)
Residuals Statisticsa
Minimum
Predicted Value
2890.9719
Residual
-111.5868
Std. Predicted Value
-1.824
Std. Residual
-1.363
Maximum
3499.8154
131.9858
1.119
1.612
Mean
3268.3889
1.011E-13
.000
.000
Std.
Deviation
206.9062
71.6172
1.000
.874
N
18
18
18
18
a. Dependent Variable: Consumo mensal de água (m3)
Charts
Histogram
Dependent Variable: Consumo mensal de água
5
4
3
Frequency
2
1
Std. Dev = .87
Mean = 0.00
N = 18.00
0
-1.50
-1.00
-.50
0.00
.50
1.00
1.50
Regression Standardized Residual
ESACB
126
SPSS
7 - Regressão Linear
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Consumo mensal de água (m3)
1.00
Expected Cum Prob
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
Observed Cum Prob
Scatterplot
Dependent Variable: Consumo mensal de água (m3)
Regression Standardized Residual
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
-1.5
-1.0
-.5
0.0
.5
1.0
1.5
Regression Standardized Predicted Value
A equação do modelo ajustado é:
consumo=531.302+0.232temperat+0.05027producao+110.46dias-1.709operario
2
sendo R2=0.893 e Rajustado
= 0.86 .
Repita-se o processo, optando pelo método de cálculo Stepwise. Neste caso, chegar-se-á
ao modelo:
ESACB
127
SPSS
7 - Regressão Linear
consumo=443.965+0.03842producao+107.976dias
2
e R2=0.889 e Rajustado
= 0.874 .
Repare-se que se simplificou o modelo, sem contudo prejudicar a precisão deste como
instrumento de estimativa da variável dependente.
De seguida apresentam-se os resultados completos obtidos com o método stepwise, de
modo a possibilitar a comparação com o modelo que inclui todas as variáveis
independentes:
Regression
Descriptive Statistics
Mean
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
Std.
Deviation
N
3268.3889
218.9502
18
65.0500
13.1334
18
13091.89
21.5000
182.0000
2716.3310
1.0432
21.3514
18
18
18
Correlations
Pearson Correlation
Sig. (1-tailed)
N
ESACB
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
Consumo mensal de
água (m3)
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Dias úteis no mês
Número de operários
Consumo
mensal de
água (m3)
Temperatura
média
mensal (ºF)
Produção
mensal
(Ton)
1.000
.013
.894
.901
.831
.013
1.000
-.005
-.022
-.080
.894
.901
.831
-.005
-.022
-.080
1.000
.811
.939
.811
1.000
.784
.939
.784
1.000
.
.480
.000
.000
.000
.480
.
.493
.466
.377
.000
.000
.000
.493
.466
.377
.
.000
.000
.000
.
.000
.000
.000
.
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
Dias úteis
no mês
Número de
operários
128
SPSS
7 - Regressão Linear
Variables Entered/Removeda
Model
1
Variables
Entered
Variables
Removed
Dias úteis no
mês
.
Produção
mensal (Ton)
.
Method
Stepwise (Criteria:
Probability-of-F-to-e
nter <= .050,
Probability-of-F-to-re
move >= .100).
Stepwise (Criteria:
Probability-of-F-to-e
nter <= .050,
Probability-of-F-to-re
move >= .100).
2
a. Dependent Variable: Consumo mensal de água (m3)
Model Summaryc
Model
1
2
R
.901a
.943b
R Square
.811
.889
Adjusted R
Square
.800
.874
Change Statistics
Std. Error
of the
Estimate
98.0273
77.5677
R Square
Change
.811
.078
F Change
68.810
10.554
df1
df2
1
1
16
15
Sig. F
Change
.000
.005
a. Predictors: (Constant), Dias úteis no mês
b. Predictors: (Constant), Dias úteis no mês, Produção mensal (Ton)
c. Dependent Variable: Consumo mensal de água (m3)
ANOVAc
Model
1
2
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
661216.554
153749.724
814966.278
724715.124
90251.154
814966.278
df
1
16
17
2
15
17
Mean
Square
661216.554
9609.358
362357.562
6016.744
F
68.810
Sig.
.000a
60.225
.000b
a. Predictors: (Constant), Dias úteis no mês
b. Predictors: (Constant), Dias úteis no mês, Produção mensal (Ton)
c. Dependent Variable: Consumo mensal de água (m3)
Coefficientsa
Unstandardized
Coefficients
Model
1
2
(Constant)
Dias úteis no mês
(Constant)
Dias úteis no mês
Produção mensal (Ton)
B
-796.273
189.054
443.965
107.976
3.842E-02
Std. Error
490.549
22.791
544.446
30.791
.012
Standardi
zed
Coefficien
ts
Beta
.901
.514
.477
t
-1.623
8.295
.815
3.507
3.249
Sig.
.124
.000
.428
.003
.005
95% Confidence Interval
for B
Lower
Upper
Bound
Bound
-1836.190
243.643
140.740
237.369
-716.494
1604.425
42.346
173.606
.013
.064
Correlations
Zero-order
Partial
Part
.901
.901
.901
.901
.894
.671
.643
.301
.279
a. Dependent Variable: Consumo mensal de água (m3)
ESACB
129
SPSS
7 - Regressão Linear
Excluded Variablesc
Model
1
2
Beta In
Temperatura média
mensal (ºF)
Produção mensal (Ton)
Número de operários
Temperatura média
mensal (ºF)
Número de operários
t
a
Sig.
Partial
Correlation
Collinearit
y
Statistics
Tolerance
.032
.290
.776
.075
1.000
.477a
.323a
3.249
2.017
.005
.062
.643
.462
.343
.385
.026
.296
.772
.079
.999
-.176b
-.683
.506
-.179
.116
b
a. Predictors in the Model: (Constant), Dias úteis no mês
b. Predictors in the Model: (Constant), Dias úteis no mês, Produção mensal (Ton)
c. Dependent Variable: Consumo mensal de água (m3)
Residuals Statisticsa
Minimum
Predicted Value
2876.5112
Residual
-105.6879
Std. Predicted Value
-1.898
Std. Residual
-1.363
Maximum
3487.1743
130.9278
1.060
1.688
Mean
3268.3889
2.274E-13
.000
.000
Std.
Deviation
206.4711
72.8621
1.000
.939
N
18
18
18
18
a. Dependent Variable: Consumo mensal de água (m3)
Charts
Histogram
Dependent Variable: Consumo mensal de água (m3)
5
4
3
Frequency
2
1
Std. Dev = .94
Mean = 0.00
N = 18.00
0
-1.50
-1.00
-.50
0.00
.50
1.00
1.50
Regression Standardized Residual
ESACB
130
SPSS
7 - Regressão Linear
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Consumo mensal de água (m3)
1.00
Expected Cum Prob
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
Observed Cum Prob
Scatterplot
Dependent Variable: Consumo mensal de água (m3)
Regression Standardized Residual
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
-1.5
-1.0
-.5
0.0
.5
1.0
1.5
Regression Standardized Predicted Value
7.4 - AJUSTAMENTO DE MODELOS PRÉ-DEFINIDOS
O SPSS dispõe de uma rotina que permite o ajustamento de vários modelos prédefinidos a uma amostra de valores bi-variados (x,y). Tais modelos são:
ESACB
131
SPSS
7 - Regressão Linear
•
Linear:
y = b0 + b1 .x
•
Quadrático:
y = b0 + b1 .x + b2 .x 2
•
•
Cúbico:
Logarítmico:
y = b0 + b1 .x + b2 .x 2 + b3 .x 3
y = b0 + b1 . ln x
•
Inverso:
y = b0 +
•
Potência:
y = b0 .x b1
⇔
ln y = ln b0 + b1 . ln x
Composto (compound):
y = b0 .b
⇔
ln y = ln b0 + x. ln b1
⇔
ln y = b0 +
⇔
1 1
ln −  = ln(b0 + x. ln b1 )
 y u
⇔
ln y = ln b0 + b1 .x
•
b1
x
x
1
b
b0 + 1
x
b1
x
•
Sigmoidal (S):
y=e
•
Logístico:
y=
•
Crescimento (growth):
1
+ b0 .b1x
u
(em que u é o limite assimptótico superior, u>0, u>ymax)
y = e b0 +b1 . x
ln y = b0 + b1 .x
⇔
•
Exponencial:
y = b0 .e b1 . x
1
Muitos destes modelos são frequentemente usados em modelos econométricos, em que
a variável independente ou causal é o decurso do tempo. Se for este o caso, no menu
apropriado o utilizador pode definir que x é o tempo (ver caixa de diálogo seguinte).
Para exemplificar esta metodologia, vamos usar os dados referentes às características do
molho de tomate (em anexo). Como anteriormente se viu, o gráfico denota uma ligeira
curvatura na zona superior dos valores xx, que faz suspeitar que um modelo polinomial
talvez seja melhor ajustado que o modelo linear simples.
Para tal, fazer:
Statistics
Regression
Neste menu, seleccionar a opção Curve Estimation... que dá acesso à seguinte caixa de
diálogo, onde se definem as variáveis dependente (solidos) e independente (insoluve) e
se seleccionam os modelos que se pretendem obter, e se define para apresentar a tabela
da anova
ESACB
para cada um dos modelos calculados:
132
SPSS
Por
7 - Regressão Linear
defeito,
os
modelos
ajustados
incluem
a
constante
(coeficiente
b0)
, e é apresentado o gráfico com os modelos calculados
.
O utilizador pode seleccionar um ou mais modelos, com o objectivo de, pela análise dos
resultados, nomeadamente R2 e anova, seleccionar o modelo melhor ajustado. No
exemplo, foi solicitado para calcular os modelos linear, quadrático e cúbico. Os
resultados são os seguintes:
MODEL:
MOD_1.
Dependent variable.. SOLIDOS
Listwise
Multiple
R Square
Adjusted
Standard
Deletion of Missing Data
R
.97001
.94092
R Square
.93823
Error
1.28802
Analysis of Variance:
DF
Sum of Squares
Mean Square
1
22
581.27190
36.49768
581.27190
1.65899
350.37794
Signif F =
Regression
Residuals
F =
Method.. LINEAR
.0000
-------------------- Variables in the Equation -------------------
ESACB
133
SPSS
7 - Regressão Linear
Variable
T Sig T
B
INSOLUVE
-2.646653
18.718 .0000
(Constant)
38.761 .0000
Dependent variable.. SOLIDOS
Listwise
Multiple
R Square
Adjusted
Standard
.141393
Beta
-.970010
76.193433
-
1.965707
Method.. QUADRATI
Deletion of Missing Data
R
.98637
.97293
R Square
.97035
Error
.89243
Analysis of Variance:
DF
Sum of Squares
Mean Square
2
21
601.04440
16.72518
300.52220
.79644
377.33322
Signif F =
Regression
Residuals
F =
SE B
.0000
-------------------- Variables in the Equation ------------------Variable
T Sig T
B
INSOLUVE
7.293 .0000
INSOLUVE**2
4.983 .0001
(Constant)
14.516 .0000
-8.288178
SE B
1.136478
.200730
Listwise
Multiple
R Square
Adjusted
Standard
.040286
-
2.075370
7.930949
Method.. CUBIC
Deletion of Missing Data
R
.98637
.97293
R Square
.97035
Error
.89243
Analysis of Variance:
Regression
Residuals
ESACB
-3.037655
115.123024
Dependent variable.. SOLIDOS
Beta
DF
Sum of Squares
Mean Square
2
21
601.04440
16.72518
300.52220
.79644
134
SPSS
F =
7 - Regressão Linear
377.33322
Signif F =
.0000
-------------------- Variables in the Equation ------------------Variable
T Sig T
B
INSOLUVE
7.293 .0000
INSOLUVE**2
4.983 .0001
(Constant)
14.516 .0000
-8.288178
SE B
1.136478
.200730
Beta
-3.037655
.040286
115.123024
-
2.075370
7.930949
--------------- Variables not in the Equation -------------Variable
T
Beta In
Partial
Min Toler
INSOLUVE**3
.3371
-4.796852 -.214795
T
1.368E-05
Sig
-.984
Notes:
9 Tolerance limits reached; some dependent variables were
not entered.
% sólidos no molho
60
50
40
30
Obs erved
Linear
20
Quadratic
10
12
14
16
18
20
% insolúveis em água
ESACB
135
SPSS
7 - Regressão Linear
Note-se que ao passar do modelo linear y = 76.1934 – 2.6467x, R2=0.9409 para o
modelo quadrático y = 115.1230 – 8.2882x + 0.2007x2, R2=0.9729, há um acréscimo
significativo do ajustamento (Tb2=4.983, significativo; F=377.33 significativo);
contudo, ao passar para o modelo cúbico, a estatística Tb3=-0.984 é não significativa, e
nem sequer é calculado este modelo, sendo apresentados os resultados do modelo
quadrático, o que significa que o melhor modelo (dos pedidos) é o modelo quadrático.
ESACB
136
SPSS
8-
8 - Manusear os Resultados
MANUSEAR OS RESULTADOS
À medida que se vão executando tarefas com o SPSS, os resultados vão-se acumulando
sucessivamente no Viewer do programa.
A janela do organigrama apresenta a sequência de resultados, que começam na
identificação
; cada rotina ou tarefa aparece identificada com uma marca
identificativa dos resultados, e respectivo conteúdo; por exemplo, os resultados
correspondentes à obtenção das estatísticas descritivas é identificado no organigrama
pelo esquema
.
Cada conjunto de resultados começa pela
identificação da rotina ou tarefa
(
) e com o respectivo conteúdo; esta rotina apresenta um título
(repare que o “livro” está aberto), e que corresponde à linha
visível
Descriptives na janela à direita, um conjunto de notas
que não estão visíveis
no output (o “livro” está fechado), e as estatísticas descritivas visíveis na janela de
output
(o “livro” está aberto). Esta organização mantém-se para
os resultados das tarefas seguintes.
ESACB
136
SPSS
8 - Manusear os Resultados
Note que cada rotina tem um conjunto de notas, mas que não estão visualizadas; para as
ver na janela de output, o utilizador só tem que fazer duplo click sobre
, de
modo a “abrir o livro”, e aparecerem as notas na janela à direita.
Repare que as notas incluem a data e hora de obtenção dos resultados, a localização do
ficheiro de dados usado, o número de linhas ou casos do ficheiro de dados, indicações
sobre a existência e tratamento de “missing values”, e as instruções que originaram os
resultados (o utilizador gerou estas instruções, ou programa, seleccionando ícons e
janelas nos menus do programa; contudo, e para utilizações mais avançadas, o SPSS
tem um editor de programas, em que o utilizador constrói as rotinas de análise, como se
de uma linguagem de programação de tratasse). A última linha das notas indica o tempo
de processamento que a CPU do computador levou a executar esta rotina (neste caso,
0.99 segundos).
Para “fechar o livro” de notas, isto é, para que as notas não sejam visualizadas no
output, fazer duplo click sobre
.
Para “condensar” a parte de organigrama correspondente a uma rotina de análise, fazer
click sobre o botão - à esquerda da sua identificação; por exemplo, para “condensar” o
organigrama das estatísticas descritivas, fazer click sobre
O organigrama fica com o seguinte aspecto:
ESACB
137
SPSS
8 - Manusear os Resultados
Esta “condensação” do organigrama tem a vantagem de permitir maior rapidez na
localização de determinados conjuntos de resultados, pois o utilizador pode “condensar”
as partes não relevantes do organigrama, ficando apenas “aberta” a parte relevante do
organigrama.
Para “expandir”, fazer duplo click sobre o botão + correspondente
Para visualizar resultados subsequentes, o utilizador pode usar a barra de scroll vertical
da janela de resultados, ou simplesmente fazer clik no item respectivo do organigrama.
Para ter acesso imediato ao diagrama de extremos-e-quartis referente a todos is valores,
fazer click sobre o item
Além da visualização, o utilizador pode copiar este gráfico (ou qualquer outro conjunto
de resultados) para outra aplicação em Windows (por exemplo, processador de texto).
ESACB
138
SPSS
8 - Manusear os Resultados
Para tal, localizar o bloco de resultados pretendido (tal como descrito); Fazer Edit Copy
(ou CTRL-C), para capturar uma imagem do bloco seleccionado para o “clipboard”
(área de transferência) do Windows; colocar-se na aplicação pretendida (poor exemplo,
num documento do Word) e fazer a colagem da imagem (Edit Past, ou CTRL-V).
Se se efectuou uma análise e se chegou à conclusão que está repetida, ou que pura e
simplesmente não interessa, pode eliminar-se do Viewer. No exemplo seguinte, repetiuse a rotina Descriptives, de modo que os resultados estão em duplicado.
Podem acrescentar-se caixas de texto com comentários aos resultados, por exemplo
algumas análises que se considerem pertinentes.
Para incluir o comentário “O histograma evidencia uma tendência assimétrica” após o
histograma, seleccionar o item Histogram:
e fazer Insert New Text ou fazer click no botão
. Na janela de resultados é aberta
uma caixa de texto, onde se esccrevem os comentários pretendidos:
ESACB
139
SPSS
8 - Manusear os Resultados
Para eliminar um dos conjunto de resultados da rotina Descriptives, fazer click sobre o
item respectivo no organigrama:
e de seguida fazer Edit Cut, ou CTRL-X, ou simplesmente carregar na tecla DEL.
Podem guardar-se os resultados em ficheiro, de modo que posteriormente o utilizador
possa recuperá-los sem ter de os recalcular. Para gravar os resultados contidos no
Viewer do SPSS, estando colocado nesta janela, fazer:
File
Save
Aparece a seguinte caixa de diálogo, onde se selecciona o disco/directório onde se
pretende gravar; na caixa
escreve-se
o nome a dar ao ficheiro (sem extensão); o programa automaticamente acrescenta a
extensão .spo típica dos ficheiros Viewer do SPSS.
ESACB
140
SPSS
8 - Manusear os Resultados
Posteriormente, se se pretender apenas consultar os resultados, basta abrir este ficheiro
no SPSS. Caso se pretenda continuar a executar análises e acrescentá-las a este ficheiro,
então deve abrir-se também o ficheiro de dados para a partir daí proceder às análises.
Para imprimir os resultados do Viewer, faz-se File Print; na caixa de diálogo seguinte,
confirmar a impressora, e fazer OK:
Se interessar imprimir não todo o conjunto de resultados, mas apenas alguns dos blocos,
devem seleccionar-se previamente. Para tal, se os blocos são contíguos, manter a tecla
SHIFT carregada e fazer click sobre os items a seleccionar; se os blocos não são
adjacentes, manter a tecla CTRL carregada e fazer click sobre os items a seleccionar:
ESACB
141
SPSS
8 - Manusear os Resultados
Neste exemplo, apenas o bloco Descriptives e o bloco Producao estão seleccionados; se
se mandar imprimir, só serão impressos estes resultados.
Repare que agora, no
aparece activada a opção
que imprimirá apenas os blocos seleccionados.
ESACB
, a indicar
142
SPSS
Anexos
ANEXOS
Listagem dos ficheiros SPSS referenciados no texto
ESACB
143
plasma.sav
hora
1 Manhã
2 Manhã
3 Manhã
4 Manhã
5 Manhã
6 Manhã
7 Manhã
8 Manhã
9 Manhã
10 Manhã
11 Tarde
12 Tarde
13 Tarde
14 Tarde
15 Tarde
16 Tarde
17 Tarde
18 Tarde
19 Tarde
20 Tarde
estrogen fosfo
Controle
8,53
Controle
20,53
Controle
12,53
Controle
14
Controle
10,8
Presente
17,53
Presente
21,07
Presente
20,8
Presente
17,33
Presente
20,07
Controle
39,14
Controle
26,2
Controle
31,33
Controle
45,8
Controle
40,2
Presente
32
Presente
23,8
Presente
28,87
Presente
25,06
Presente
29,3
pulso.sav
caso
sexo
fuma
1 Homem Fuma
2 Mulher
Fuma
3 Homem Não Fuma
4 Mulher
Não Fuma
5 Homem Fuma
6 Mulher
Fuma
7 Homem Não Fuma
8 Mulher
Não Fuma
9 Mulher
Fuma
10 Homem Fuma
11 Mulher
Não Fuma
12 Homem Não Fuma
13 Mulher
Fuma
14 Mulher
Não Fuma
15 Homem Fuma
16 Homem Não Fuma
17 Homem Não Fuma
18 Mulher
Não Fuma
19 Mulher
Fuma
20 Homem Fuma
21 Homem Fuma
22 Homem Não Fuma
23 Mulher
Fuma
24 Mulher
Não Fuma
25 Mulher
Não Fuma
26 Mulher
Não Fuma
27 Homem Não Fuma
28 Homem Não Fuma
29 Homem Fuma
30 Homem Fuma
31 Mulher
Não Fuma
32 Homem Não Fuma
33 Mulher
Não Fuma
34 Mulher
Não Fuma
35 Mulher
Não Fuma
36 Homem Fuma
37 Homem Não Fuma
38 Homem Fuma
39 Homem Não Fuma
40 Homem Não Fuma
idade
31
20
28
29
21
27
21
42
22
28
21
22
43
19
23
41
24
21
21
20
38
20
33
25
37
22
32
22
22
19
21
26
32
24
28
34
35
21
21
30
ritmoa
62
78
64
96
66
96
68
72
88
90
82
74
66
68
92
68
76
86
88
66
70
80
76
78
76
80
68
70
68
70
86
72
84
72
80
62
74
90
66
70
ritmod
126
154
128
155
128
265
120
138
160
144
140
134
148
142
134
112
158
146
156
132
122
136
148
148
136
158
116
120
126
144
144
126
136
142
138
132
116
138
142
132
arroz.sav
caso variedad
azoto
1 IR8
0 kg/ha
2 IR8
0 kg/ha
3 IR8
0 kg/ha
4 IR8
0 kg/ha
5 IR8
60 kg/ha
6 IR8
60 kg/ha
7 IR8
60 kg/ha
8 IR8
60 kg/ha
9 IR8
90 kg/ha
10 IR8
90 kg/ha
11 IR8
90 kg/ha
12 IR8
90 kg/ha
13 IR8
120 kg/ha
14 IR8
120 kg/ha
15 IR8
120 kg/ha
16 IR8
120 kg/ha
17 IR8
150 kg/ha
18 IR8
150 kg/ha
19 IR8
150 kg/ha
20 IR8
150 kg/ha
21 IR5
0 kg/ha
22 IR5
0 kg/ha
23 IR5
0 kg/ha
24 IR5
0 kg/ha
25 IR5
60 kg/ha
26 IR5
60 kg/ha
27 IR5
60 kg/ha
28 IR5
60 kg/ha
29 IR5
90 kg/ha
30 IR5
90 kg/ha
31 IR5
90 kg/ha
32 IR5
90 kg/ha
33 IR5
120 kg/ha
34 IR5
120 kg/ha
35 IR5
120 kg/ha
36 IR5
120 kg/ha
37 IR5
150 kg/ha
38 IR5
150 kg/ha
39 IR5
150 kg/ha
40 IR5
150 kg/ha
41 C4-63
0 kg/ha
42 C4-63
0 kg/ha
43 C4-63
0 kg/ha
44 C4-63
0 kg/ha
45 C4-63
60 kg/ha
46 C4-63
60 kg/ha
47 C4-63
60 kg/ha
repete producao
1
3852
2
2606
3
3144
4
2894
1
4788
2
4936
3
4562
4
4608
1
4576
2
4454
3
4884
4
3924
1
6034
2
5276
3
5906
4
5652
1
5874
2
5916
3
5984
4
5518
1
2846
2
3794
3
4108
4
3444
1
4956
2
5128
3
4150
4
4990
1
5928
2
5698
3
5810
4
4308
1
5664
2
5362
3
6458
4
5474
1
5458
2
5546
3
5786
4
5932
1
4192
2
3754
3
3738
4
3428
1
5250
2
4582
3
4896
arroz.sav
48 C4-63
49 C4-63
50 C4-63
51 C4-63
52 C4-63
53 C4-63
54 C4-63
55 C4-63
56 C4-63
57 C4-63
58 C4-63
59 C4-63
60 C4-63
60 kg/ha
90 kg/ha
90 kg/ha
90 kg/ha
90 kg/ha
120 kg/ha
120 kg/ha
120 kg/ha
120 kg/ha
150 kg/ha
150 kg/ha
150 kg/ha
150 kg/ha
4
1
2
3
4
1
2
3
4
1
2
3
4
4286
5822
4848
5678
4932
5888
5524
6042
4756
5864
6264
6056
5362
catsup.sav
caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
insoluve
10,71
11,76
11,36
11,27
15,3
12,07
15,98
13,34
13,34
14,29
13,66
14,79
14,5
14,8
14,88
10,86
13,34
13,01
12,87
14,4
15,12
17,06
18,22
13,73
solidos
51
45,2
44,8
47,4
35,5
44,5
35,3
39,3
40,8
38,4
39,3
36
37,9
36,2
35,3
48,5
40
43
41,5
36,7
35,3
32,5
30,2
38,9
Descargar