Manual InfoStat - Centro Guatemalteco de Investigación y

Anuncio
Centro guatemalteco de
investigación y capacitación de
la caña de azúcar.
-CENGICAÑA-
Joel Morales, José Luis Quemé y Mario Melgar.
Primera Edición
Santa Lucia Cotz. Agosto 2009.
InfoStat
Contenido
Aspectos generales de InfoStat .......................................................................................................................................... 1
Aspecto de la base de datos: Video. ............................................................................................................................. 1
¿Có mo importar una base de datos desde Excel? .................................................................................................. 1
¿Có mo pegar una base de datos desde Excel? ....................................................................................................... 2
Transformación de datos ................................................................................................................................................ 3
Prueba de hipótesis .............................................................................................................................................................. 4
Términos de importancia al realizar una prueba de hipótesis .................................................................................. 4
Pasos para evaluar una hipótesis estadística. .............................................................................................................. 5
Prueba de hipótesis acerca de una media poblacional normal. Video .................................................................... 5
Prueba de hipotesis acerca de dos medias (parcelas apareadas). Video ................................................................ 8
Prueba de hipótesis acerca de dos medias independientes. Video ......................................................................... 9
Diseño completamente al azar ......................................................................................................................................... 10
Características generales............................................................................................................................................... 10
Utilización del d iseño.................................................................................................................................................... 10
Supuestos del modelo.................................................................................................................................................... 10
Diseño de bloques completos al azar .............................................................................................................................. 14
Hipótesis del modelo ..................................................................................................................................................... 14
Supuestos del modelo .................................................................................................................................................... 14
Serie de Experimentos....................................................................................................................................................... 19
Análisis de experimentos factoriales .............................................................................................................................. 23
Arreglos combinatorios................................................................................................................................................. 24
Parcelas div ididas .......................................................................................................................................................... 28
Franjas divid idas ............................................................................................................................................................ 31
Análisis de correlación lineal simp le. ............................................................................................................................. 34
Regresión Lineal................................................................................................................................................................. 36
RL Simple ....................................................................................................................................................................... 36
Supuestos del modelo de regresión ........................................................................................................................ 37
RL Mú ltiple ..................................................................................................................................................................... 41
Bibliografía.......................................................................................................................................................................... 42
Anexos ................................................................................................................................................................................. 43
Manual de uso
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Aspectos generales de InfoStat
Aspecto de la base de datos: Video.
La base de datos es la matriz de información, sobre la que se trabaja. La forma de ingreso
de la información es en base a los criterios de organización de datos, donde se colocan en
las columnas las variables y en las filas las observaciones, por lo que cada fila es un
individuo o unidad experimental y cada celda contiene el dato o el valor que pertenece a
cada variable para cada observación.
¿Cómo importar una base de datos desde Excel?
InfoStat posee grandes ventajas respecto a la facilidad en el manejo de datos, es muy
versátil en la importación de datos desde Excel (versión 2003 o anterior), esto es
importante, pues este último es muy utilizado en la generación de bases de datos tomados
en campo.
Es posible importar directamente una base de datos desde Excel y otros formatos. Esto
facilita el manejo y presentación de los mismos.
Figura 1: S elección de la hoja de cálculo importada desde Excel.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
1
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
¿Cómo pegar una base de datos desde Excel?
Muchas veces poseemos la base de datos de tal forma, que no coincide la primera fila y la
primera columna con información propia de la base , o se poseen objetos distintos como
gráficas o logotipos. Considerando esto, es relativamente fácil, el copiar la base de datos
que se desea analizar de forma directa a la tabla de InfoStat. Para esto se puede incluir la
primera fila como el nombre de las columnas o no. Se debe de presionar el botón derecho
del ratón y seleccionar la opción “pegar” o “pegar incluyendo nombre de columnas”.
2
Figura 2: Como pegar una base de datos en la tabla de InfoS tat.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Transformación de datos
Muchas veces se trabaja con variables cualitativas o datos no paramétricos, los cuales no
cumplen con el supuesto de normalidad. Por lo anterior es necesario
realizar
transformación de estos datos.
InfoStat ofrece una gran cantidad de transformaciones para una variable, y a la vez permite
la operación entre variables.
3
Figura 3: Menú a seleccionar para realizar una transformación
Para realizar la transformación se debe de seleccionar la variable, luego de indicar que se
desea realizar una transformación.
Figura 4: Opciones de trasformación
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Prueba de hipótesis

Hipótesis Nula (Ho)
Esta es la que el investigador evalúa y está dispuesto a sostener como probable, a menos
que la evidencia experimental en su contra sea sustancial.

Hipótesis alternativa (Ha)
Es la negación de la hipótesis nula.
4
Términos de importancia al realizar una prueba de hipótesis

Error tipo I (α)
Es la probabilidad de rechazar una Ho cuando es falsa.

Error tipo II (β)
Es la probabilidad de no rechazar una Ho Cundo es falsa .
Cuadro 1: Posibles errores.
Tomada de Anderson, E; Black, W. et al. 1999.

Nivel de significancia
Es el valor de probabilidad de error tipo I, que el investigador está dispuesto a aceptar.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Pasos para evaluar una hipótesis estadística.
1.
Definir la hipótesis nula y alternativa adecuada para el caso de evaluación .
Cuadro 2: Casos de hipótesis a evaluar
5
2. Seleccionar el estadístico de prueba, necesario para evaluar la hipótesis.
Cuadro 3: Estadísticos utilizados en la prueba de hipótesis
Tomado de López, E. 2008.
3. Especificar el nivel de significancia.
4. Establecer la regla de decisión.
5. Establecer los valores del estadístico seleccionado de la prueba y comparar lo con el
valor critico establecido.
6. Conclusión.
Prueba de hipótesis acerca de una media poblacional normal. Video
Ejemplo:
En una región cañera se siembra predominantemente una variedad de caña de azúcar que
tiene un TCH promedio de 103.5 toneladas ha -1 . Un programa de mejoramiento ha
desarrollado una nueva variedad, comúnmente usada, con rendimientos mayores a la
variedad predominante. Para probar esta aseveración se siembran nueve lotes
experimentales con la nueva variedad y se obtienen los siguientes rendimientos:
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Cuadro 4: Rendimiento en toneladas de caña por hectárea, tomado de 9 lotes distintos.
Lote
TCH
1
2
3
4
5
6
7
8
9
Prom.
103.15
103.92
104.26
103.36
103.72
104.19
103.42
104.38
104.5
103.88
Identificación del parámetro sobre el cual se desea inferir en base a la muestra:
Media (µ)
Hipótesis a probar:
Ho: µ≤103.5 Ha: µ>103.5
Elección del modelo probabilístico bajo el cual se operará:
La t de Student
Especificación del nivel de significancia.
α = 5% o 0.05
Establecer la regla de decisión:
Se Rechaza la Ho si p ≤ α
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
6
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
7
Figura 5: Ubicación de la prueba
Se debe de seleccionar la columna a analizar y se debe de indicar el parámetro con el cual
se realizará la comparación.
Prueba T para un parámetro
Valor del parámetro probado: 103.5
Variable
n
Media
DE
LI(95)
TCH
9
103.88
0.49 103.57
T
2.32
p(Unilateral D)
0.0246
La regla de desición:
En base a la prueba T, se observa una probabilidad de p = 0.0246. Este valor es menor a la
probabilidad permitida (α= 0.05), por lo que se rechaza Ho.
Conclusión:
La muestra apoya la aseveraión del programa de mejoramiento.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Prueba de hipotesis acerca de dos medias (parcelas apareadas). Video
Cuadro 5: Rendimientos en toneladas de caña por hectarea, de dos variedades tamados de 6 lotes.
NF
CP72-2086
CG97-77
1
2
3
4
5
6
Prom.
160
112
184
186
104
152
150
130
118
225
149
168
139
155
8
Es importante que se ingresen los datos en dos columnas, una para cada población o
conjunto de datos.
Figura 6: Ubicación de la prueba
En este caso la hipótesis a evaluar es:
Ho: la diferencia entre las medias es igual a cero, que es igual a decir que ambas medias
son iguales µ1 = µ2.
Ha: µ1 ≠ µ2.
Prueba T (muestras apareadas)
Obs(1) Obs(2)
CG97-77 CP72-2086
media(dif)
5.17
Media(1)
154.83
Media(2)
149.67
DE(dif) T
40.23 0.31
Bilateral
0.7658
Conclusión:
En base a las evidencias se puede aseverar que los tonelajes de ambas variedades son
semejantes.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Prueba de hipótesis acerca de dos medias independientes. Video
Cuadro 6: Rendimientos en toneladas de caña por hectárea, bajo dos tratamientos de aplicación de fosforo.
Fosforo 0
P0
150
155
149
153
Fosforo 240
P240
165
167
168
167
9
Es necesario que para ingresar los datos en InfoStat, se debe de crear una columna donde se
coloque el nombre o código de la variable, útil para la clasificación, y una columna donde
se ingrese el valor de la variable a estudiar.
Figura 7: Ubicación de la prueba
Prueba T para muestras Independientes
Variab Grupo(1)Grupo(2)
TCH {P0}
{P240}
media(1)
151.75
media(2)
166.75
p(Var.Hom.) T
0.2307-9.91
p
0.0001
Conclusión:
Al observar la salida del análisis, se puede decir que el rendimiento del tratamiento P240 es
mayor que el rendimiento del tratamiento P0.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Diseño completamente al azar
Es importante que al momento de realizar un análisis de varianza, se tenga bien claro las
fuentes de variación consideradas por dicho modelo.
10
Tomado de López, E. 2008
Como la media general y el error experimental son términos que poseen en común todos los
modelos, no es necesario el indicarlos entre las fuentes de variación.
Características generales




Se usa cuando las unidades experimentales son homogéneas
Con el se puede probar cualquier número de tratamientos (ya sean niveles de un
solo factor o combinaciones de nivel de varios factores)
Los tratamientos se aplican a las unidades experimentales al azar.
Cualquier número de repeticiones por tratamiento es posible.
Utilización del diseño
Este diseño se recomienda cuando existe homogeneidad entre unidades experimentales,
esto quiere decir que no existe influencia de la ubicación de la unidad experimental sobre el
efecto del tratamiento, esto es muy utilizado en ensayos a nivel de laboratorio, cuando se
utilizan macetas o medios de cultivos, donde las condiciones son las mismas para todas las
unidades experimentales.
Supuestos del modelo.



Los errores son independientes.
Los errores están normalmente distribuidos con media cero y varianza constante
Existe homogeneidad de varianzas entre los tratamientos
 El modelo es lineal y de efectos aditivos.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Ejemplo: Video.
Cuadro 7: Rendimiento (TCH), evaluando 3 frecuencias de riego.
Tratamientos
Repetición 1
Repetición 2
Repetición 3
Testigo (práctica regional)
123
133
131
Riego cada 21 días
175
167
192
Riego cada 28 días
199
203
166
Riego cada 35 días
179
188
203
11
Tomado de M artínez, A. (1998).
En este caso los datos se deben de ingresar en la Tabla de InfoStat, indicando en una
columna el tratamiento evaluado y en la columna de la par la variable de respuesta
correspondiente a cada tratamiento.
Cuadro 8: Tabla de datos como se debe de ingresar a InfoS tat.
Tratamientos
TCH
Testigo (práctica regional)
Riego cada 21 días
Riego cada 28 días
Riego cada 35 días
Testigo (práctica regional)
Riego cada 21 días
Riego cada 28 días
Riego cada 35 días
Testigo (práctica regional)
Riego cada 21 días
Riego cada 28 días
Riego cada 35 días
123
175
199
179
133
167
203
188
131
192
166
203
En la pestaña estadísticas se encuentra la opción análisis de varianza, al aceptar aparece un
cuadro donde se debe de indicar las variables dependientes (TCH) y las variables de
clasificación (Tratamientos). Para esto se debe de utilizar los botones de acción
.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
12
Figura 8: S elección de las variables.
Al aceptar aparecerá otro recuadro, donde se debe indicar las fuentes de variación del
modelo, como ya se mencionó la media general y el error no se indican. Esto se realiza en
la pestaña
. A un lado se encuentra la pestaña
donde se puede indicar
la prueba de media que se desea realizar, donde se encuentran varias opciones.
Figura 9: S elección del método de comparación de medias.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Análisis de la varianza
Variable
TCH
N
12
R²
0.83
R² Aj CV
0.77 7.98
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo
7526.25
3
2508.75
13.37 0.0018
Tratamientos
7526.25
3
2508.75
13.37 0.0018
Error
1500.67
8
187.58
Total
9026.92
11
13
Test:LSD Fisher Alfa=0.05 DMS=25.78763
Error: 187.5833 gl: 8
Tratamientos
Medias
Riego cada 35 días
190.00
Riego cada 28 días
189.33
Riego cada 21 días
178.00
Testigo (práctica regional.. 129.00
n
3
3
3
3
A
A
A
B
Letras distintas indican diferencias significativas(p<= 0.05)
201.35
A
A
TCH
182.40
A
163.45
144.50
B
125.56
Riego cada 28 días
Testigo (práctica regional)
Riego cada 35 dias
Riego cada 21 dias
Tratamientos
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Diseño de bloques completos al azar
14
Tomado de López, E. 2008.
Hipótesis del modelo
τ = τi (todos los tratamientos producen el mismo efecto)
τ ≠ τi para al menos un i; i = 1,2, . . . , t (al menos uno de los tratamientos produce efectos
distintos).
Supuestos del modelo
εij ~ NID (0,σ2)
Los errores son independientes y normalmente distribuidos, con media cero y varianza
constante (homogeneidad de varianzas).
No existe interacción entre bloque y tratamiento (*)
(*) Significa que un tratamiento no debe modificar su acción (o efecto) por estar en uno u
otro bloque.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Ejemplo: Video
Cuadro 9: Rendimiento en Toneladas de caña por hectárea, caña plantilla, finca Margaritas.
Bloques
Variedad
I
II
III
IV
CGSP98-08
CG00-032
CGSP-98-05
CGSP-98-16
CG00-120
CG00-129
CG00-001
CG00-092
CG99-045
CG00-028
CG00-044
CG-99-014
PR75-2002
CP72-2086
177
136
166
195
231
175
170
190
164
199
188
210
249
161
182
158
193
213
213
172
171
206
163
189
181
203
217
165
182
141
158
176
216
168
179
208
179
226
208
191
227
194
166
156
186
185
188
155
185
196
175
208
192
210
231
179
Para este análisis la base de datos se debe de ordenar de tal forma que se tenga una columna
donde se indique el tratamiento aplicado y a la par en otra columna a que bloque pertenece
y en una tercera el valor de la variable medida.
Cuadro 10: Forma de ingresar los datos a la base de datos.
Variedad
Bloque
TCH
CGSP98-08
CG00-032
I
I
177
136
…
CP72-2086
IV
179
Para realizar el análisis de varianza se debe de ir a la pestaña estadísticas, se despliega un
menú, donde se debe seleccionar la opción análisis de varianza.
Se debe de seleccionar en el apartado “variables dependientes” la columna del tonelaje
(TCH) y en el apartado “variable de clasificación” la columna que indica el tratamiento
aplicado y la columna donde se indica a que bloque pertenece.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
15
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
16
Figura 10: S elección de los términos del modelo.
Para indicar el modelo de bloques completos al azar, se observan las fuentes de variación
en el recuadro “términos del modelo”, y debajo de este se observa un botón de acción
llamado “agregar interacción” en este caso no se debe de agregar, de esta forma se cumple
con uno de los supuestos del modelo.
No activar
Figura 11: Especificaci ón del modelo.
Luego de elegir el método de comparación de medias, se debe de seleccionar en base a que
agrupación se desea la comparación.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
17
Figura 12: Agrupamiento de las medias para su comparación.
Análisis de la varianza
Variable
TCH
N
56
R²
0.79
R² Aj CV
0.71 6.80
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo
24459.00
16
1528.69
9.40 <0.0001
Bloque
82.07
3
27.36
0.17 0.9172
Variedad
24376.93
13
1875.15
11.53 <0.0001
Error
6340.93
39
162.59
Total
30799.93
55
Test:LSD Fisher Alfa=0.05 DMS=18.23722
Error: 162.5879 gl: 39
Variedad
Medias
n
PR75-2002
231.00
4
A
CG00-120
212.00
4
B
CG00-028
205.50
4
B
CG-99-014
203.50
4
B
CG00-092
200.00
4
B
CG00-044
192.25
4
CGSP-98-16 192.25
4
CGSP98-08
176.75
4
CG00-001
176.25
4
CGSP-98-05 175.75
4
CP72-2086
174.75
4
CG99-045
170.25
4
CG00-129
167.50
4
CG00-032
147.75
4
C
C
C
C
C
D
D
D
D
D
D
E
E
E
E
E
E
F
Letras distintas indican diferencias significativas(p<= 0.05)
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
En la pestaña donde se selecciona el método de comparación de medias, también existe una
opción que devuelve un gráfico de barras con la jerarquía del test seleccionado.
241.86
A
217.21
B
TCH
BC
BC
BC
CD
192.56
CD
DE
DE
18
DE
DE
E
E
167.92
CG00-032
CG00-129
CG99-045
CP72-2086
CGSP-98-05
CG00-001
CGSP98-08
CGSP-98-16
CG00-044
CG00-092
CG-99-014
CG00-028
CG00-120
PR75-2002
F
143.27
Variedad
Figura 13: Evaluación de tres distintos ciclos de riego.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Serie de Experimentos
Es común que se realicen experimentos con la misma estructura, pero en distintas
localidades. Con esto se desea obtener conclusiones válidas para toda una región, esto
suponiendo aleatorización de las localidades.
Para esto es necesario el analizar por separado las localidades y luego realizar un análisis
que integre todas las localidades. Estos ensayos se pueden realizar no solo para localidades
distribuidas en el espacio, si no también ensayos distribuidos en el tiempo, por ejemplo el
realizar un ensayo de herbicidas para verano y otro en invierno con la misma estructura, y
concluir para todo el año.
También es importante que se cumpla con el supuesto de homocedasticidad entre ensayos,
esto se puede probar por medio de la prueba de Hartley.
Siendo:
Yijk = toneladas de caña por hectárea referentes al i-ésimo producto madurante en el
jésimo bloque o repetición de la k-ésima localidad;
μ = media general
τi = efecto del i-ésimo producto madurante
βj / k = efecto del j-ésimo bloque en la k-ésima localidad,
lk = efecto de la k-ésima localidad,
(τl)ik = efecto de la interacción entre el i-ésimo producto madurante y la k-ésima localidad,
εijk = error experimental asociado a la observación Yijk.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
19
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Ejemplo: Video.
Cuadro 11: Toneladas de caña por hectárea, plantilla, en tres localidades.
Las Margaritas
San Bonifacio
Tululá
Bloque
Bloque
Bloque
Variedad
I
II
III
IV
I
II
III
IV
I
II
III
IV
CGSP98-08
CG00-032
CGSP-98-05
CGSP-98-16
CG00-120
CG00-129
CG00-001
CG00-092
CG99-045
CG00-028
CG00-044
CG-99-014
PR75-2002
CP72-2086
177
136
166
195
231
175
170
190
164
199
188
210
249
161
182
158
193
213
213
172
171
206
163
189
181
203
217
165
182
141
158
176
216
168
179
208
179
226
208
191
227
194
166
156
186
185
188
155
185
196
175
208
192
210
231
179
148
115
153
153
162
153
164
171
162
172
157
144
169
130
152
124
140
117
164
127
158
133
117
103
150
152
162
123
168
104
104
111
153
144
157
157
149
109
90
156
175
155
175
141
145
179
158
99
153
181
153
107
92
151
190
153
111
95
99
125
107
105
81
50
96
131
137
108
123
83
110
90
127
82
112
117
82
99
85
122
109
99
112
100
115
68
130
119
113
115
103
97
111
135
111
127
128
106
103
125
132
107
110
119
122
92
93
100
94
136
129
112
En este caso, como se puede observar, en el modelo el efecto del bloque se encuentra
anidado en la localidad, por lo que se debe de indicar en las fuentes de variación, para esto
se utiliza el símbolo “>” para indicar que el efecto del bloque se encuentra dentro de la
localidad (Localidad>Bloque) y teniendo en cuenta que el error de la localidad es
Localidad>Repetición, como se ha mencionado en ejemplos anteriores.
Figura 14: Fuentes de variación del modelo
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
20
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Análisis de la varianza
Variable
TCH
N
168
R²
0.88
R² Aj CV
0.83 11.08
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
Modelo
Localidad
Localidad>Repetición
Variedad
Localidad*Variedad
Error
Total
SC
227787.23
177483.08
3979.12
25378.43
20946.58
30873.63
258660.85
gl
50
2
9
13
26
117
167
CM
4555.74
88741.54
442.12
1952.19
805.64
263.88
Test:LSD Fisher Alfa=0.05 DMS=8.98910
Error: 442.1250 gl: 9
Localidad
Medias
n
San Bonifacio
187.54
56
A
Las Margaritas
144.36
56
Tululá
108.02
56
F
17.26
200.72
1.68
7.40
3.05
p-valor
(Error)
<0.0001
<0.0001 (Loc>Rep)
0.1025
<0.0001
<0.0001
21
B
C
Letras distintas indican diferencias significativas(p<= 0.05)
Test:LSD Fisher Alfa=0.05 DMS=13.13374
Error: 263.8771 gl: 117
Variedad
Medias
n
PR75-2002
176.00
12
A
CG00-120
160.58
12
B
CG-99-014
157.25
12
B
CG00-028
150.08
12
B
CGSP98-08
149.08
12
B
CG00-092
148.33
12
B
CGSP-98-16 146.83
12
CGSP-98-05 144.42
12
CG00-001
143.75
12
CG00-044
142.42
12
CP72-2086
138.42
12
CG00-129
137.42
12
CG99-045
137.25
12
CG00-032
121.08
12
C
C
C
C
C
C
D
D
D
D
D
D
D
D
D
D
E
Letras distintas indican diferencias significativas(p<= 0.05)
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
193.79
A
TCH
171.33
148.86
B
22
126.40
C
103.93
San Bonifacio
Tululá
Las Margaritas
Localidad
183.67
A
167.28
B
BCD
150.89
BCD
BCD
CD
CD
D
D
D
D
D
134.49
CG00-032
CG99-045
CG00-129
CP72-2086
CG00-044
CG00-001
CGSP-98-05
CGSP-98-16
CG00-092
CGSP98-08
CG00-028
CG-99-014
CG00-120
E
118.10
PR75-2002
TCH
BC
Variedad
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Análisis de experimentos factoriales
Cuando se habla de experimentos factoriales, es cuando evaluamos simultáneamente el
efecto de dos o más valores. Dependiendo del arreglo y las interacciones entre los factores
se pueden generar diversos diseños adecuados a distintas condiciones en campo.
Ventajas
a. Se logra una gran eficiencia en el uso de los recursos experimentales disponibles.
b. Se obtiene información respecto a las diversas interacciones.
c. Los resultados experimentales son aplicables a un rango de condiciones más
amplio debido a las combinaciones de los diversos factores en un solo experimento.
Los resultados son de naturaleza más comprensiva.
d. Los experimentos factoriales son más eficientes que los experimentos simples.
Inconvenientes
a. El resultado del experimento y el análisis estadístico resultante son más
complejos.
b. Con un gran número de combinaciones de tratamientos, la relación de unidades
experimentales homogéneas es más difícil.
c. Convencidos de que algunas de las combinaciones de tratamientos pueden ser de
muy poco o ningún interés, algunos de los recursos experimentales pueden ser
malgastados.
d. El número de tratamientos o combinaciones aumentan rápidamente.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
23
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Arreglos combinatorios
El modelo que se describe corresponde a un experimento bifactorial, en arreglo
combinatorio dispuesto en un diseño en bloques completos al azar, debido a que es el más
usado.
24
Tomado de López, E. 2008.
Siendo que:
Yijk = Variable de respuesta observada o medida en la ijk - ésima unidad experimental
μ = Media general
αi = Efecto del i - ésimo nivel del factor "A"
βj = Efecto del j - ésimo nivel del factor "B"
(αβ)ij = Efecto de la interacción entre el i - ésimo nivel del factor "A" y el j - ésimo nivel
del factor "B"
γk = Efecto del k - ésimo bloque
εijk = Error experimental asociado a la ijk - ésima unidad experimental
Ejemplo: Video
Cuadro 12: Rendimiento en toneladas de caña por hectárea, evaluando distintas concentraciones de tres elementos.
Tratamientos
N (Kg/ha) P (Kg/ha) K (Kg/ha)
50
0
0
150
0
0
50
100
0
150
100
0
50
0
100
150
0
100
50
100
100
150
100
100
Bloque
I
147.88
129.79
148.61
148.12
126.82
135.96
160.48
178.69
II
160.41
136.2
160.53
163.32
141.77
142.43
160.53
159.99
III
129.54
124.1
135.84
161.08
124.09
135.96
136.02
163.81
IV
105.21
111.44
130.03
151.28
127.18
129.6
141.89
148.13
Tomado de Pérez, O. (2002)
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Es importante que se cree una columna para indicar los distintos niveles de cada factor y
otra columna para indicar la repetición o el bloque como también la variable de respuesta.
Cuadro 13: Ejemplo de cómo se debe de ingresar datos en la tabla de InfoS tat.
Nivel N Nivel P
50
150
50
Nivel K
Bloque
TCH
0
0
0
I
I
I
147.88
129.79
148.61
IV
148.13
0
0
100
…
150
100
100
25
Figura 15: Variables de clasificación a seleccionar.
Se debe de agregar la interacción de todos los elementos por medio del botón de acción
, se agregará todas las combinaciones posibles, y se debe de eliminar
las interacciones donde se relacione con el bloque.
También existe la opción de agregar contrastes en el análisis, para esto se debe de indicar el
contraste deseado en la pestaña contrastes. Se debe de seleccionar entre que agrupaciones
se desean los contrastes y que tratamientos se desean realizar. Para esto se encuentran dos
botones, el botón
, sirve para indicar que tratamiento se desea contrastar al seleccionar
el tratamiento y luego presionar el botón de acción. Y el botón
tratamientos se realiza el contraste, es importante activar la casilla
cuando se realizan más de un contraste. Por último con el botón
contraste deseado.
indica contra que
se ingresa el
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
26
Figura 16: Fuentes de variación del modelo.
Figura 17: Pasos para agregar contrastes ortogonales
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Análisis de la varianza
Variable
TCH
N
32
R²
0.81
R² Aj CV
0.71 6.31
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
Modelo
7030.28
10
703.03
Bloque
2314.84
3
771.61
Nivel N
215.64
1
215.64
Nivel P
3611.86
1
3611.86
Nivel K
152.99
1
152.99
Nivel N*Nivel P
434.46
1
434.46
Nivel N*Nivel K
146.68
1
146.68
Nivel P*Nivel K
30.99
1
30.99
Nivel N*Nivel P*Nivel K 122.81
1
122.81
Error
1695.89
21
80.76
Total
8726.17
31
F
p-valor
8.71 <0.0001
9.55 0.0004
2.67 0.1171
44.73 <0.0001
1.89 0.1832
5.38 0.0305
1.82 0.1921
0.38 0.5423
1.52 0.2311
Contrastes
Nivel N*Nivel P*Nivel K
SC
Contraste1
215.64
Contraste2
3611.86
Contraste3
152.99
Contraste4
434.46
Contraste5
146.68
Contraste6
30.99
Contraste7
122.81
Total
4715.44
gl
1
1
1
1
1
1
1
7
CM
215.64
3611.86
152.99
434.46
146.68
30.99
122.81
673.63
Coeficientes de los contrastes
Nivel N*Nivel P*Nivel K
Cont.1
50.00:0.00:0.00
-1.00
50.00:0.00:100.00
-1.00
50.00:100.00:0.00
-1.00
50.00:100.00:100.00
-1.00
150.00:0.00:0.00
1.00
150.00:0.00:100.00
1.00
150.00:100.00:0.00
1.00
150.00:100.00:100.00
1.00
Cont.3
-1.00
1.00
-1.00
1.00
-1.00
1.00
-1.00
1.00
Cont.4 Cont.5 Cont.6 Cont.7
1.00
1.00
1.00 -1.00
1.00 -1.00 -1.00
1.00
-1.00
1.00 -1.00
1.00
-1.00 -1.00
1.00 -1.00
-1.00 -1.00
1.00
1.00
-1.00
1.00 -1.00 -1.00
1.00 -1.00 -1.00 -1.00
1.00
1.00
1.00
1.00
Cont.2
-1.00
-1.00
1.00
1.00
-1.00
-1.00
1.00
1.00
F
p-valor
2.67 0.1171
44.73 <0.0001
1.89 0.1832
5.38 0.0305
1.82 0.1921
0.38 0.5423
1.52 0.2311
8.34 0.0001
Conclusión:
El análisis indicó que el efecto principal de P fue estadísticamente significativo.
Con la inclusión de ambos (N y P) se obtuvieron las máximas producciones.
No hay diferencia estadística significativa entre 50 y 0 Kg de N/ha evaluando bajo
aplicaciones de P y K.
El nivel 150 Kg de N/ha difieren estadísticamente del nivel 0 Kg de N/ha, con aplicaciones
iguales de PK.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
27
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Parcelas divididas
En este diseño se trabajan con todas las posibles combinaciones de los factores, lo que lo
diferencia del anterior es el arreglo, por lo que se puede adecuar de mejor forma a
condiciones reales de campo.
28
Figura 16: Arreglo de parcelas divididas en el espacio.
Tomado de López, E. 2008
Siendo:
Yijk = Variable de respuesta medida en la ijk - ésima unidad experimental
μ = Media general
βj = Efecto del j - ésimo bloque
αi = Efecto del i - ésimo nivel del factor A.
(αβ)ij = Efecto de la interacción del i-ésimo nivel del factor A con el j – ésimo bloque, que
es utilizado como residuo de parcelas grandes y es representado por error(a)
ρk = Efecto del k - ésimo nivel del factor B
(αρ)ik = Efecto debido a la interacción del i-ésimo nivel del factor A con el k – ésimo nivel
del factor B.
εijk = Error experimental asociado a Yijk , es utilizado como residuo a nivel de parcela
pequeña, y es definido como: Error(b)
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Ejemplo: Video.
Cuadro 14: Efecto de dos distintas mezclas de herbicidas, en 13 variedades, evaluando altura .
Bloque
Mezcla de herbicida
M1
M2
Variedad
I
II
III
CP72-2086
16.2
13.8
19
CP73-1312
21.8
22
23
CP88-1165
23.2
31
29.6
RB73-2577
17.8
17
15.6
SP79-1287
31.6
28.2
27
CG98-10
26.2
30.8
26.6
CG96-78
15.6
16.4
20
CG98-78
20.4
17.2
14.8
CG99-048
33.8
30
30
MEX82-114
23
13.8
18.2
RB84-5210
21.2
29.2
28
RB87-2015
23.4
21.6
25
CG96-135
17
18.6
18.6
CP72-2086
24.8
22.4
30.6
CP73-1312
38.8
20
18.8
CP88-1165
21.4
40.8
31.2
RB73-2577
17.8
38.6
19.2
SP79-1287
25.8
20
30.4
CG98-10
19.8
21.8
26
CG96-78
21.8
20.4
34
CG98-78
26.4
24.6
18
CG99-048
17.6
26.4
21.2
MEX82-114
36.6
25.2
15.4
RB84-5210
20.6
20.6
32.4
RB87-2015
21.2
32.4
36.8
CG96-135
20
19.4
21.2
Datos tomados de Ing. Gerardo Espinoza, Fisiólogo. CENGICAÑA.
Cuadro 15: Forma de crear la base de datos en InfoStat.
Variedad
Mezcla
Bloque
Altura
CP72-2086
M1
I
16.2
CP73-1312
M1
I
21.8
CP88-1165
M1
I
23.2
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
29
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Para este caso es importante el considerar las fuentes de variación del modelo y el error del
efecto A o parcela grande. Para este caso se debe de indicar el error apropiado de dicho
efecto (Factor A*Bloque), por medio de el carácter \ (diagonal invertida), para lo cual se
utiliza el comando Alt + 93, esto es importante pues en el momento de realizar la
comparación de medias se utiliza el error adecuado.
En este caso el factor A o parcela grande es la mezcla de herbicida, y el factor B parcela
pequeña la variedad.
30
Figura 17: Ingreso del modelo de parcelas divididas a InfoS tat.
Análisis de la varianza
Variable
Altura
N
78
R²
0.49
R² Aj CV
0.18 24.51
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
Modelo
Mezcla
Bloque
Mezcla*Bloque
Variedad
Mezcla*Variedad
Error
Total
SC
1545.05
139.20
14.45
10.45
737.85
643.10
1633.63
3178.68
gl
29
1
2
2
12
12
48
77
Test:Tukey Alfa=0.05 DMS=2.23128
Error: 5.2267 gl: 2
Mezcla
Medias
n
M2
25.14
39
A
M1
22.47
39
CM
53.28
139.20
7.23
5.23
61.49
53.59
34.03
F
1.57
26.63
0.21
0.15
1.81
1.57
p-valor
0.0830
0.0356
0.8094
0.8581
0.0739
0.1314
(Error)
(Mezcla*Bloque)
B
Letras distintas indican diferencias significativas(p<= 0.05)
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Franjas divididas
Cuando las condiciones del campo o la naturaleza de los tratamientos no permiten una
completa aleatorización de todas las combinaciones de los factores, este diseño es
recomendable.
31
Figura 18: Arreglo de un diseño de franjas divididas.
Este es el modelo estadístico- matemático, propuesto para dos factores y un diseño de
bloques completos al azar.
Siendo:
Yijk = Variable de respuesta medida en la ijk - ésima unidad experimental
μ = Media general
βj = Efecto del j - ésimo bloque
αi = Efecto del i - ésimo nivel del factor A.
(αβ)ij = Efecto de la interacción entre el i-ésimo nivel del factor A con el j - ésimo bloque,
o sea, es el error experimental asociado al factor A, tal que (αβ)ij ~ N (0, σ2 1 ) e
independientes, es utilizado como error(a).
ρk = Efecto del k - ésimo nivel del factor B
(ρβ)jk = Efecto de la interacción entre el k-ésimo nivel del factor A con el j - ésimo bloque,
o sea, es el error experimental asociado al factor B, tal que (ρβ)jk ~ N (0, σ22 ) e
independientes, es utilizado como error(b).
(αρ)ik = Efecto debido a la interacción del i-ésimo nivel del factor A con el k - ésimo nivel
del factor B.
(αβρ)ijk = Error experimental asociado a Yijk, tal que (αβρ)ijk ~ N (0, σ2) e
independientes, es utilizado como término de error o residuo.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Ejemplo: Video.
Cuadro 16: Evaluación de cuatro tipos de surco y tres densidades de siembra, midiendo % Pol.
Bloque
Tipo de surco
Surco Simple
Surco doble
surco base
larga
surco base
corta
Densidad de
siembra
I
II
III
IV
4 TSH
6 TSH
8 TSH
4 TSH
6 TSH
8 TSH
4 TSH
6 TSH
8 TSH
4 TSH
6 TSH
8 TSH
17.67
17.31
17.49
17.19
17.21
18.04
17.39
17.39
17.69
17.19
16.78
17.86
17.23
17.6
17.3
17.85
17.26
16.38
17.54
17.67
17.02
17.57
17.57
16.85
17.43
17.05
17.68
17.44
16.71
17.23
16.61
16.77
17.34
17.72
17.79
18.12
17.61
16.91
18.27
17.56
17.52
17.14
17.51
17.61
18.02
17.73
18.27
17.94
Datos tomados de López, E. 2008.
Para este caso se debe de considerar los errores de cada factor e indicarlos, pues es
necesario para que al realizar la comparación de medias se utilice el error adecuado.
Figura 19: Fuentes de variación para un diseño de franjas divididas.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
32
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Análisis de la varianza
Variable
% Pol
N
48
R²
0.77
R² Aj CV
0.39 1.89
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
Modelo
6.47
29
0.22
Tipo de surco
0.68
3
0.23
Densidad de siembra
0.28
2
0.14
Bloque
0.99
3
0.33
Tipo de surco*Densidad de .. 0.62
6
0.10
Tipo de surco*Bloque
1.62
9
0.18
Densidad de siembra*Bloque.. 2.29
6
0.38
Error
1.95
18
0.11
Total
8.42
47
Test:LSD Fisher Alfa=0.05 DMS=0.48936
Error: 0.1085 gl: 18
Tipo de surco
Densidad de siembra
surco base corta 8 TSH
Surco Simple
8 TSH
surco base corta 6 TSH
surco base corta 4 TSH
surco base larga 8 TSH
Surco doble
4 TSH
Surco Simple
4 TSH
surco base larga 6 TSH
surco base larga 4 TSH
Surco Simple
6 TSH
Surco doble
8 TSH
Surco doble
6 TSH
F
2.06
1.25
0.36
3.05
0.95
1.66
3.52
p-valor
(Error)
0.0563
0.3473 (Tipo de surco*Bloque)
0.7104 (Densidad de siembra*Bloqu..
0.0554
0.4869
0.1731
0.0175
Medias
17.69
17.69
17.60
17.55
17.52
17.51
17.49
17.36
17.26
17.22
17.20
17.18
n
4
4
4
4
4
4
4
4
4
4
4
4
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
C
C
C
C
C
C
C
C
C
C
Letras distintas indican diferencias significativas(p<= 0.05)
17.89
A
17.70
AB
ABC
% Pol
ABC
ABC
17.52
ABC
ABC
ABC
17.33
ABC
BC
C
Surco doble:6 TSH
Surco doble:8 TSH
Surco Simple:6 TSH
surco base larga:4 TSH
surco base larga:6 TSH
Surco Simple:4 TSH
Surco doble:4 TSH
surco base larga:8 TSH
surco base corta:4 TSH
surco base corta:6 TSH
Surco Simple:8 TSH
17.14
surco base corta:8 TSH
ABC
Tipo de surco*Densidad de siembra
Figura 20: Grafica resumen de la comparación de medias.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
33
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Análisis de correlación lineal simple.
En este análisis se relacionan dos variables aleatorias. Para este ejemplo tomaremos como
estadístico de prueba el coeficiente de correlación de Pearson, y se realizará una prueba de
hipótesis para evaluar si el coeficiente de Pearson (ρ) es igual a cero, lo que indicaría una
ausencia de correlación lineal.
Ejemplo: Video.
Cuadro 17: Peso de tallos y rendimiento de caña en Kg.
peso del
tallo Kg
Rendimiento
de caña Kg
1.12
1.21
0.99
1.02
0.93
1.14
0.86
1.03
1.22
1.17
7.74
8.02
8.16
8.46
6.3
10.01
4.79
7.04
7.62
7.54
Se ingresan ambas variables en la casilla de variables a analizar.
Figura 21: Ubicación de coeficiente de correlación.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
34
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
35
Figura 22: S elección del coeficiente de correlación de Pearson.
Recordemos que se trabajará con el coeficiente de correlación de Pearson, por lo que se
debe de seleccionar cuando InfoStat lo indique.
Coeficientes de correlación
Correlacion de Pearson: coeficientes\probabilidades
Rendimiento de caña
peso del tallo Kg
Rendimiento de caña
1.00
0.62
peso del tallo Kg
0.05
1.00
En la matriz podemos observar en la parte inferior de la diagonal conformada por unos, los
coeficientes de correlación que nos indica el grado de asociación, donde un número
negativo indica una asociación negativa, este valor se encuentra entre -1 y 1 y 0 indica que
no existe una correlación lineal entre variab les. En la parte superior de la diagonal se
muestra el valor de la probabilidad (p) de la prueba de hipótesis realizada, al evaluar que el
coeficiente de Pearson es igual a cero, se debe de tener en cuenta el valor de significancia
con el que se desea trabajar, pues al trabajar con un nivel de significancia del 5%, se acepta
la hipótesis alternativa (existe correlación entre ambas variables) si el valor de p≤ 0.05.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Regresión Lineal
Existen casos cuando se desea conocer la relación funcional que puede existir entre dos o
más variables cuantitativas, en estos casos la regresión es muy útil. También un análisis de
regresión nos puede servir para predecir o describir el comportamiento de una variable
respecto al comportamiento de otra, que por su naturaleza es difícil la observación directa,
por lo que con la ayuda de un modelo se puede entender lo anterior relacionando una o más
de una variable.
36
RL Simple
Cuando se relaciona una variable dependiente o explicada con una variable independiente o
explicativa realizamos un análisis de regresión simple, con la finalidad de generar un
modelo que exprese el comportamiento de la variable dependiente respecto a la
independiente.
Tomado de López, E. 2008.
a) El coeficiente de posición (α) o intercepto, indica la posición en la cual la recta
corta el eje Y. Si la recta pasa por el origen, entonces α =0. En términos prácticos, indica el
valor que asume la variable Y cuando la variable es X=0. En algunos casos se requiere que
la recta corte en el origen, esto siguiendo la lógica de la variable explicada.
b) El coeficiente de regresión lineal (β) o coeficiente angular de la regresión,
determina la pendiente de la recta. Este coeficiente indica la variación en Y causada por la
variación de una unidad en X.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Supuestos del modelo de regresión
1. El término de error ε es una variable aleatoria con media o valor esperado igual a cero,
esto es, E(ε). Esto implica que como α y β son constantes, E(α )= α y E(β)=β.
2. La varianza de ε representada por σ2 , es igual para todos los valores de x.
Homocedasticidad. Implicación: la varianza de y es igual a σ2 , y es la misma para todos los
valores de x.
3. Los valores de ε son independientes.
Implicación: el valor de ε para un determinado valor de x no se relaciona con el valor de ε
para cualquier otro valor de x; así, el valor de y para determinado valor de x no se relaciona
con el valor de y para cualquier otro valor de x.
4. El término de error ε es una variable aleatoria con distribución normal.
Implicación: como y es una función lineal de ε, y es también una variable aleatoria
distribuida normalmente.
La siguiente figura ilustra los supuestos del modelo y sus implicaciones:
Tomado de López, E. 2008.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
37
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Ejemplo: Video.
Cuadro 18: Datos de tres variables de 10 híbridos de caña de azúcar.
Híbrido
peso del
tallo Kg
Rendimiento
de caña Kg
Brix Kg
1
2
3
4
5
6
7
8
9
10
1.12
1.21
0.99
1.02
0.93
1.14
0.86
1.03
1.22
1.17
7.74
8.02
8.16
8.46
6.3
10.01
4.79
7.04
7.62
7.54
0.9
0.87
0.92
0.99
0.58
1.11
0.53
0.73
0.87
0.9
Datos tomados del articulo Combining ability and yield component in five parent diallet cross in sugarcane, por el Dr. J.
D. M iller.
Se pide que se investigue la relación Rendimiento de caña en Kg (X) y Brix en Kg (Y).
Es importante que tengamos en cuenta que al realizar el análisis de varianza, evaluamos la
hipótesis de que β (la pendiente de la recta) es igual a cero, por lo que no existe re lación
entre ambas variables.
Figura 23: Ubicación de la herramienta regresión lineal.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
38
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Es importante que recordemos al momento de indicar las variables a análisis, que la
variable dependiente en este caso es Brix en Kg (Y), y la variable regresora es el
rendimiento de caña en Kg (X).
39
Figura 24: Diagnostico de la regresión lineal simple.
En el cuadro de análisis de regresión lineal, en la pestaña diagnóstico debemos de indicar
las graficas que deseamos como prueba de los supuestos y si deseamos se debe de indicar
que la presencia de las bandas de confianza y predicción en el gráfico del modelo.
Análisis de regresión lineal
Variable
Brix Kg
N
10
R²
0.92
R² Aj ECMP
0.91 5.0E-03
AIC
-26.30
BIC
-25.40
Coeficientes de regresión y estadísticos asociados
Coef
Est.
const
-0.10
Rendimiento 0.12
E.E.
0.10
0.01
LI(95%) LS(95%)
-0.33
0.09
0.13
0.15
T
p-valor
-1.03
0.3326
9.54 <0.0001
CpMallows
82.02
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo
0.26
1
0.26
91.03 <0.0001
Rendimiento de caña
0.26
1
0.26
91.03 <0.0001
Error
0.02
8
2.9E-03
Total
0.29
9
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
1.33
Brix Kg
1.07
0.82
40
0.56
0.31
4.53
5.96
7.40
8.84
10.27
Rendimiento de caña
En base al análisis de varianza se acepta la hipótesis alterna, donde se dice que β es distinto
a 0, y por lo tanto la variable Y está explicada o relacionada con la variable X.
Utilizando los coeficientes de los parámetros, se puede generar un modelo que prediga el
comportamiento de la variable Brix Kg en función de rendimiento de caña en Kg.
Y= -0.103 + 0.125X
Donde:
Y= Kg Brix y X= Kg de caña.
Y en base al coeficiente de determinación ajustado, se puede afirmar en un 91% de certeza
que el modelo puede predecir la realidad.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
RL Múltiple
En este caso se relaciona una variable dependiente (Y), con dos o más variables
independientes (X). El modelo que relaciona esta variable dependiente que debe de ser
aleatoria y variables independientes que son fijas y predeterminadas, medidas sin error, se
llama ecuación de regresión múltiple.
Este modelo se diferencia de la regresión lineal simple, ya que la adición de una o más
variables independientes, debe de contribuir significativamente a la predicción de la
variable dependiente (Y), después de haber tomado en cuenta la contribución de la variable
independiente de la RLS.
También es importante tener en cuenta un supuesto que se agrega a los de la RLS, este
considera que dos variables independientes no debes de tener correlación entre ellas, pues
al existir esta relación la variable dependiente es mejor explicada únicamente con una sola
variable independiente al presentar un modelo más simple, a este supuesto se le llama
multicolinalidad.
Para realizar una RLM en InfoStat, se siguen los mismo s pasos que para realizar una RLS,
únicamente se agrega las variables independientes deseadas en la casilla de “Regresoras”.
Ejemplo: Video.
Con las variables del ejemplo anterior (RLS), realice un análisis de regresión lineal
múltiple.
El primer paso es el realizar una matriz de correlación, como ya se ha visto en incisos
anteriores.
Coeficientes de correlación
Correlacion de Pearson: coeficientes\probabilidades
Brix Kg
% Brix
Rendimiento de caña
Brix Kg
1.000
0.595
0.959
% Brix
0.070
1.000
0.344
Rendimiento de caña
1.2E-05
0.331
1.000
Como se puede apreciar en la matriz anterior, se observa que existe correlación entre las
variables Brix Kg y rendimiento de caña y Brix Kg y % Brix mayor a un 10% de
significancia, por lo que son útiles en la elaboración de un modelo de RLM. También se
observa que no existe correlación entre las variables de Rendimiento de caña y % Brix, por
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
41
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
lo que se cumple con el supuesto de multicolinalidad y ambas variables contribuyen a la
predicción de la variable Brix Kg.
Análisis de regresión lineal
Variable
Brix Kg
N
10
R²
1.00
R² Aj ECMP
1.00 1.5E-04
AIC
-70.02
BIC
-68.80
42
Coeficientes de regresión y estadísticos asociados
Coef
const
Rendimiento de caña
% Brix
Est.
-0.74
0.11
0.05
E.E. LI(95%) LS(95%) T
0.03 -0.80 -0.68 -27.50
1.5E-03
0.11
0.11 73.50
1.8E-03
0.04
0.05 25.88
p-valor CpMallows
<0.0001
<0.0001 4729.69
<0.0001
588.05
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
Modelo
0.29
2
0.14
Rendimiento de caña
0.18
1
0.18
% Brix
0.02
1
0.02
Error
2.4E-04
7
3.4E-05
Total
0.29
9
F
4184.19
5402.93
669.63
p-valor
<0.0001
<0.0001
<0.0001
El modelo tomando en cuenta los coeficientes anteriores se presentaría de la siguiente
manera:
Y= -074 + 0.11X1 + 0.05X2
Donde:
Y= Brix Kg, X1 = Rendimiento de caña y X2 = % Brix.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Bibliografía
Anderson, E; Black, W; Hair, F; Tatham, R. (1999). Análisis Multivariado. Madrid. Prentice Hall Iberia.
Hines, W; Montgomery, D. (1995). Probabilidades y estadística para ingenieria y administración. México.
Co mpañía editorial continental, S.A. de C.V. Mé xico.
InfoStat. (2009). In foStat versión 2009. Grupo InfoStat, FCA, Universidad Nacional de Córdova, Argentina.
Levin, R. (1981). Estadística para administradores. México. Prentice Hall.
López, E. (2008). Diseño y análisis de experimentos, fundamentos y aplicaciones en agronomía. Guatemala.
USA C.
López, E. (2008). Elaboración de proyectos de investigación, notas de acompañamiento de curso. Guatemala.
USA C.
López, E. (2008). Estadística, con aplicaciones en agronomía y ciencias forestales. Guatemala. USAC.
Martínez, A. (1988). Diseños experimentales: métodos y elementos de teoría. México. Trillas.
Mendenhall, W; Scheaffer, R; Wackerly, D. (1986). Estadística matemática con aplicaciones. México.
Iberoamérica.
Pérez, O. (2002). Diplomado de estadística: experimentos factoriales. Santa Lucia Cotz. CENGICA ÑA.
Quemé, J. (2002). Análisis de regresión. Santa Lucía Cotz. CENGICAÑA.
Quemé, J. (2002). Introducción al uso del ayudante de datos MST y MSTAT-C. Santa Lucía Cotz.
CENGICAÑA.
Quemé, J. (2002). Sitematización de una prueba de hipótesis, diseños completamente al azar, bloques
completos al azar y prueba de medias. Santa Lucía Cotz. CENGICAÑA.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
42
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Anexos
Cuadro 19: Resumen. Términos a considerar en la definición del modelo, en InfoS tat.
Diseño
Términos del modelo.
Diseño completamente
al azar. DCA.
(1)
Diseño completamente
al azar con submuestreo
DCAsm.
Diseño de bloques
completos al azar. DBCA.
Tratamiento
Tratamiento
Repetición*Tratamiento>Muestreo
Bloque
Tratamiento
(1)
Diseño de bloques completos
al azar con submuestreo.
DBCAs m.
Serie de experimentos
con DBCA.
Arreglo co mbinatoria en
DBCA. (Factorial)
Parcelas div ididas
Franjas divid idas
Bloque
Tratamiento
Bloque*Tratameinto>Muestreo
Localidad\Localidad>Bloque
Localidad>Bloque
Tratamiento
Localidad*Tratamiento
Bloque
Factor A
Factor B
Factor A*Factor B
Bloque
Factor A\Factor A*Bloque
Factor A*Bloque
Factor B
Factor A*Factor B
Bloque
Factor A\Factor A*Bloque
Factor A*Bloque
Factor B\Factor B* Bloque
Factor B* Bloque
Factor A*Factor B
(1)
Cuando se definen modelos con submuestro es importante que tengamos en cuenta las distintas
decisiones que debemos de tomar en el mo mento de aceptar o rechazar una hipótesis. InfoStat realiza
de forma parcial el análisis de este modelo, por lo que se debe de seguir los siguientes pasos:
1.
Prueba de hi pótesis para e valuar la efecti vi dad del muestreo.
Ho: σ2 e = 0
Ha: σ2 e > 0
En este caso si se acepta la Ho, se dice que el muestreo no fue efectivo, en caso contrario, si se rechaza la Ho
se dice que el muestreo fue efectivo. Para esto se debe realizar los siguientes cálculos:
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
43
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
Se considerar el cuadrado medio del error experimental (CM ee) y el cuadrado medio del error del muestreo
(CM e m). Se debe de encontrar el valor F, para esto se realiza la relación CM ee/CM em. Para realizar la toma de
decisión de rechazar o aceptar la Ho, se puede estimar, en Excel, el valor p (probabilidad), para esto se utiliza
la función DISTR.F donde se ingresa el grado de libertad del Error experimental (g l 1 ), los grados de libertad
del erro r de muestreo (gl2 ) y el valor F (CM ee/CM em), el cual es nombrado en Excel por la letra “X”.
Si el valor p estimado en Excel, es menor al nivel de significancia establecido, se rechaza la Ho, por lo que se
dice que el muestreo fue efectivo.
2.
Prueba de hi pótesis para evaluar si existe diferencia entre tratameintos, cuando el muestreo es
efecti vo
La segunda hipótesis a evaluar, corresponde a la diferencia entre los tratamientos, donde:
Ho: τ = τi (todos los tratamientos producen el mis mo efecto)
Ha: τ ≠ τi para al menos un i; i = 1,2, . . . , t (al menos uno de los tratamientos produce efectos distintos).
En este caso, los valores de F y p utilizados en la toma de decisión de aceptar o rechazar la Ho, son los
proporcionados por la salida de InfoStat, de igual forma el coeficiente de variación.
2.1. Prueba de medias, cuando el muestreo es efecti vo.
Si el muestreo fue efectivo las prueba de medias se realiza de manera co mún, de igual forma co mo se presenta
en la sección de diseño completamente al azar.
3.
Prueba de hi pótesis para evaluar si existe diferencia entre tratamietnos, cuando el muestreo no
es efectivo.
Al no ser el muestreo efectivo, se debe de unir los errores del error experimental y el error de muestreo de la
siguiente forma:
CM ep = SCee+ SCe m / glee + gle m
Donde:
CM ep = Cuadrado med io del error ponderado
SCee = Su ma de cuadrados del error experimental
SCe m= Su ma de cuadrados del error de muestreo
glee= grados de libertad del error experimental
glem= grados de libertad del error de muestreo
Y el valor F (el valor F del tratameinto), se estima así:
F= CM Tratamiento / CM ep
Para encontrar el valor p que se utiliza para realizar la to ma de decisión respecto a la segunda hipótesis,
relacionada al efecto de los tratamientos, se debe de seguir las instrucciones mencionadas anteriormente en el
inciso 1. Y el valor del coeficiente de variación debe de encontrarse de la siguiente forma:
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
44
Métodos estadísticos utilizados en la industria cañera.
CENGICAÑA
3.1. Prueba de medias, cuando el muestreo no es efecti vo
Para esto, se debe de indicar el error y los grados de libertad a utilizar (estimados previamente, de la forma
explicada anteriormente en el inciso 3) en la comparación de medias, donde el error es el valor de CM ep y los
grados de libertad la suma de g lee y gle m.
45
Figura 25: Indicación del error a utilizar en la comparación de medias
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
Descargar