Hacer clic aquí para descargar

Anuncio
Am. J. Hum. Genet. 52:60-70, 1993
Evaluación de Error Estándar e Intervalo de Confianza de Probabilidades
Estimadas de Genotipos Multilocus y sus Implicancias en Genética
Forense
Ranajit Chakraborty, M. R. Srinivasan, and Stephen P. Daiger
Genetics Centers, Graduate School of Biomedical Sciences, University of Texas Health Science Center, Houston
Resumen
Las probabilidades de genotipos multilocus, estimadas usando el supuesto de asociación independiente de
alelos dentro de y entre locus, están sujetas a fluctuación muestral, dado que las frecuencias de alelos
empleadas en estos cálculos provienen de muestras tomadas de una población. Obtenemos varianzas
muestrales exactas de probabilidades de genotipos estimadas y proporcionamos aproximaciones simples de
varianzas muestrales. Las simulaciones computarizadas llevadas a cabo usando datos reales de tipificación
genética indican que, si bien la distribución muestral de probabilidades de genotipos estimadas no es simétrica
en torno a la estimación puntual, el intervalo de confianza de las probabilidades estimadas de genotipos (monolocus o multilocus) pueden obtenerse del muestreo de una transformación logarítmica de los valores estimados.
Esto, a su vez, permite un estudio de la heterogeneidad de estimadores provenientes de datos de diferentes
poblaciones de referencia. Las aplicaciones de esta teoría a datos de tipificación genética en locus VNTR
sugieren que el uso de datos de diferentes poblaciones de referencia puede arrojar estimaciones
significativamente diferentes. Sin embargo, generalmente las diferencias significativas ocurren con
probabilidades de genotipos poco comunes (menos de 1 en 40,000). Las estimaciones conservadoras de
probabilidades de perfil genético de cinco locus son siempre menos de 1 en 1 millón en un individuo de los
Estados Unidos, independientemente del origen racial/étnico.
Introducción
Con más de 4,000 locus polimórficos genéticos
descubiertos disponibles en el genoma humano
(Solomon and Rawlings 1991), se ha vuelto posible
definir genotipos multilocus en cualquier individuo
específico para cualquier subconjunto dado de
estos locus. Dado que muchos de estos locus
presentan gran cantidad de alelos segregantes, el
número de posibles genotipos multilocus puede ser
muy grande. Por ejemplo, dado que un locus VNTR
típico puede presentar fácilmente 20 o más alelos
segregantes (Odelberg et al. 1989), cuatro de estos
locus producirán [(20x21)/ 2]4 ≈2 billones de
posibles genotipos o más. Para muchas
aplicaciones de datos de genotipos multilocus, es
importante conocer las frecuencias relativas de
dichos genotipos en una población.
Por lo tanto, es relevante considerar cómo estimar
Recibido 18 junio, 1992; revisión recibida 24 agosto, 1992.
Para correspondencia y reimpresiones diríjase a: Dr. Ranajit
Chakraborty, Center for Demographic and Population Genetics,
University of Texas Graduate School of Biomedical Sciences, P.O.
Box 20334, Houston, TX 77225.
© 1993 by The American Society of Human Genetics. Todos los
derechos reservados.
0002-9297/93/5201-0007$02.00
las probabilidades de genotipos multilocus y asignar
los límites de error de sus estimaciones.
Intuitivamente, el método más simple y directo sería
predecir probabilidades de genotipos (mono-locus o
multilocus) a partir de sus frecuencias relativas
observadas en una muestra. Esto es factible y
resulta confiable para genotipos mono-locus en los
locus de grupo sanguíneo y proteicos tradicionales
(Mourant et al. 1976; Tills et al. 1983). Sin embargo,
debido a la gran cantidad de alelos segregantes en
locus VNTR y a que el número exacto de alelos
posibles en estos locus puede ser desconocido
(Chakraborty and Daiger 1991; Devlin et al. 1991),
es evidente que deben emplearse métodos
alternativos para estimar probabilidades de
genotipos multilocus para locus VNTR (Chakraborty
1992). No obstante, este desafío no es exclusivo de
locus VNTR.
Intervalo Estimado de Frecuencias Genotípicas
Las probabilidades de genotipos en locus HLA se
calculan generalmente a partir de frecuencias de
haplotipo HLA (Albert et al. 1984), y esta analogía
también aplica para los cálculos de genotipo de
inmunoglobulina Gm (Steinberg and Cook 1981).
En otras palabras, la teoría de predicción de
probabilidades de genotipos (mono-locus o
multilocus) en base a datos de frecuencia de alelos
ha sido utilizada basándose en expectativas de
Hardy-Weinberg (EHW) para uniones aleatorias de
alelos y en la regla de multiplicación en cadena
para combinar probabilidades individuales de
genotipos con locus específico (Li 1976). Claro
está que para justificar este método es necesario
establecer asociaciones aleatorias de alelos, tanto
dentro de como entre locus, en datos de multilocus
observados en una muestra, lo que ha sido objeto
de varios estudios (Chakraborty and Kidd 1991;
Risch and Devlin 1992; Weir 1992; Chakraborty et
al., in press-a). Aunque es sabido que las
desviaciones de las reglas de producto (es decir,
EHW) y multiplicación en cadena (desequilibrios de
fase gamética) pueden resultar de mezcla
poblacional y/o subestructura presente en una
población (Li 1976), en el contexto del análisis de
datos de VNTR recolectados por la tipificación
RFLP, se demuestra que ambas suposiciones son
adecuadas. Por ejemplo, cuando se tuvieron en
cuenta artefactos (como p.ej. resolución incompleta
de alelos RFLP de tamaños similares) de la técnica
electroforesis, Devlin et al. (1990) no manifestó
ningún exceso significativo de homocigosis en
datos de VNTR en las poblaciones de EUA. El uso
de correlaciones intraclase de longitudes de
fragmentos de ADN dentro de locus reveló que la
suposición de EHW es razonable (Weir 1992;
Chakraborty et al., in press-a), y no se observó
desequilibrio significativo de fase gamética en el
análisis realizado por Risch and Devlin (1992).
Además, Chakraborty and Jin (1992) demostraron
que la observación inicial de deficiencias de
heterocigotos
(equivalentes
a
exceso
de
homocigosis) señalada por Budowle et al. (1991a)
no puede ser explicada sólo por subestructuración
poblacional. La presencia de alelos no detectables
y/o la resolución incompleta de alelos de tamaños
similares es un factor más apropiado que explica
estas observaciones (Chakraborty et al. 1992a).
Finalmente, en otra parte (Chakraborty et al., in
press-b) demostramos que las suposiciones de
alelos dentro de y entre locus dan lugar a
estimaciones conservadoras (sesgadas al alza) de
probabilidades de genotipos multilocus, con una
simple modificación de la estimación de
probabilidades de genotipos homocigotos, como se
indica más adelante en la presentación.
Dado que, aun en el enfoque anterior, las
probabilidades de genotipos estimadas dependen
de estimaciones de frecuencia de alelos, que a su
61
vez están sujetas a fluctuación muestral, el
propósito de este trabajo es evaluar los errores
estándar de las estimaciones de probabilidades de
genotipos multilocus en base a datos de frecuencia
de alelos. Mostramos la derivación de la varianza
muestral exacta para cualquier genotipo multilocus
general. Además, alegamos que, dado que las
probabilidades
de
genotipos
multilocus
generalmente son pequeñas, sus distribuciones
muestrales no son simétricas en torno a la
estimación puntual. Por lo tanto, discutimos un
abordaje de estimación de intervalo de confianza de
probabilidad de genotipos multilocus, usando las
propiedades muestrales de una transformación
logarítmica
de
estas
probabilidades.
La
confiabilidad de esta metodología es verificada por
simulación computarizada. Utilizando esta teoría,
finalmente
describimos
una
prueba
de
heterogeneidad de diferentes estimaciones de la
misma probabilidad de genotipo multilocus,
obtenida de diferentes poblaciones de referencia.
Esto permite una interpretación estadística de la
comparación de dos o más estimaciones, cada una
de las cuales es pequeña, pero que pueden diferir
bastante entre sí. Finalmente, discutimos lo
apropiado de este tipo de análisis en el contexto de
datos de tamaño de fragmentos VNTR, a causa de
la naturaleza cuasi-continua de las medidas de
tamaño de fragmentos VNTR en todas las muestras
poblacionales.
Frecuencias Relativas de Genotipos Multilocus
y sus Errores Estándar
Considere L locus codominantes autosomales en
cada uno de los cuales hay múltiples alelos
segregantes en una población. Para el eésimo
locus (ℓ = 1, 2, . . . , L), bajo la suposición de
equilibrio de Hardy-Weinberg, la probabilidad de
genotipo P1 toma una de las dos siguientes formas:
P1=
p21
2p1q1
for homozygotes
para heterocigotos,
(1)
donde p1 y q1 son las respectivas frecuencias de
alelos en la población. Bajo la suposición de
asociación aleatoria de alelos a través de locus
(equilibrio de fase gamética; Li 1976; Weir 1990),
para cualquier conjunto de L locus, la frecuencia de
genotipo multilocus está dada por
L
Pcom =
πP1
ℓ=1
(2)
que asume que los alelos relevantes en diferentes
locus se agregan aleatoriamente para formar
genotipos multilocus en individuos de la población.
Como se definió anteriormente, las ecuaciones
(1) y (2) aplican a la población entera, y en la
62
práctica deben ser estimadas. Esto se realiza a
partir de una muestra de individuos tomada de la
población, de cuyos conteos de alelos en una
muestra de n/2 individuos (esto es, n alelos) la
estimación de p1 (o q1) resulta
Chackraborty et al.
Intervalo Estimado de Frecuencias Genotípicas
Ρ1 =
n1
n
63
(3)
la cual, sustituida en la ecuación (1), da la
estimación, P., de cualquier probabilidad de
genotipo mono-locus. A través de la ecuación (2),
esto a su vez genera la probabilidad multilocus
estimada, digamos, Pcom.
La aplicación directa de la teoría de muestreo
de las distribuciones multinomiales (Johnson and
Kotz 1969) da la varianza muestral de PI (para los
pasos críticos de la derivación, vea el Apéndice),
dada por
simples que ignoran los términos de orden n-2 o
menor. Utilizando la aproximación
para cualquier función f(x) continua de una variable
aleatoria x, tenemos
y
para homocigotos
para heterocigotos
Estas son las expresiones para la varianza exacta
de P1 para cualquier probabilidad de genotipo
mono-locus. Nótese que, cuando la probabilidad de
genotipo es estimada a partir de frecuencias de
alelos (usando la ec. [1]), las estimaciones no
carecen de sesgo. Por ejemplo,
para homocigotos
para heterocigotos,
(5)
de modo que para cada homocigoto, P1 es una
sobreestimación de la probabilidad real, mientras
que para heterocigotos, P1 es una subestimación.
El sesgo, no obstante, es despreciable cuando el
tamaño muestral (n) es grande, digamos, cuando
se muestrean 100 o más individuos.
Existe otra razón por la cual puede no ser
preferible un estimador no sesgado de P1. Por
ejemplo, por ec. (5) el estimador no sesgado de p 1
resulta
que son los primeros términos de la ecuación (4)
para
homocigotos
y
heterocigotos,
respectivamente.
Una vez obtenida V (PI) como se describió
anteriormente, y dado que las P estimadas para
diferentes locus son independientes, de Goodman
(1960, 1992) tenemos
para
homocigotos
(5a)
para heterocigotos,
y por lo tanto la estimación no sesgada de un
genotipo homocigoto se hace cero si el alelo resulta
tener sólo una copia en la muestra (es decir, P1 =
1/n y P1=1/n2).
Las expresiones de la ecuación (4) son bastante
complicadas, y se dispone de aproximaciones más
donde G1 = V(PA)/P 2, que da la varianza muestral
de la probabilidad estimada del genotipo multilocus.
En la ecuación (8) pueden usarse las expresiones
64
exactas de V(P,), dadas por la ecuación (4), o bien
sus aproximaciones, ecuaciones (7a - 7b); las
aproximaciones
son
generalmente
bastante
exactas, lo que se demostrará a continuación.
También
pueden
realizarse
aproximaciones
adicionales sin comprometer la exactitud de la
varianza estimada Por ejemplo, en la ecuación (8),
dado que cada valor de GI es generalmente
pequeño, la varianza de Pcom puede aproximarse,
manteniendo sólo la primera suma.
Chackraborty et al.
Intervalo Estimado de Frecuencias Genotípicas
65
Como el cálculo de la ecuación (8) no es tedioso,
recomendamos que esta última aproximación es
innecesaria, por lo que en este trabajo
determinar L y U, que puede usarse para obtener el
intervalo de confianza de Pcom, (eL,eU). En la
siguiente
sección
demostramos
que
la
aproximación dada en la ecuación (11) es bastante
exacta para el propósito de generar intervalos de
confianza de Pcom.
se llamará "varianza aproximada de Pwm", donde
V(P1) se calcula con las ecuaciones (7a 7b).
Aplicaciones de la Teoría y Exactitud de las
Aproximaciones
Intervalo de Confianza de Probabilidad
Multilocus
Mientras que las ecuaciones (4), (7) y (8)
proporcionan los errores muestrales de las
probabilidades estimadas de cualquier genotipo
multilocus, pueden no proporcionar un intervalo de
confianza de Pcom exacto, ya que Pcom
generalmente es pequeño y su distribución
muestral no es simétrica en torno a la estimación
puntual. En contraste, observando que la ecuación
(2) da
podemos usar la aproximación de la ecuación (6)
para obtener
que da un intervalo de confianza de lOOa% para
donde Za es el valor bilateral lOOa% de una
distribución normal estándar. Los límites superior e
inferior, U y L respectivamente, del intervalo
representado por la ecuación (11) pueden
transformarse para obtener el intervalo de
confianza de Pcom, dado por (eL,eU).
O bien, dado que Pcom se obtiene de un conjunto
de
probabilidades estimadas P1 y q1, y su n asociada
para cada locus, el intervalo de confianza empírico
de ln(Pcom) puede generarse simulando distribución
multinomial (hasta tres clases para cada locus) para
Sesgo de Pcorn Estimada y Exactitud de Varianza
Aproximada de Pcom
En la tabla 1 presentamos seis ejemplos de la
aplicación de la teoría descrita en las secciones
previas. Por el momento, suponga que hay seis
datos de genotipo, dando perfiles de genotipo
basados en datos de mono-locus (caso 1) hasta
seis locus (caso 6), donde las columnas bajo el
título "x1l" y "X21" pueden considerarse como las
designaciones alélicas de los genotipos. También
se presentan en esta tabla las frecuencias de los
alelos para cada locus computado (para cada
genotipo) en tres muestras poblacionales. En esta
sección, consideraremos los datos de frecuencia de
alelos para la primer muestra poblacional, para
ilustrar
los
cálculos
teóricos
descritos
anteriormente; y en una sección posterior
consideraremos los restantes datos de frecuencia
de alelos, para examinar la heterogeneidad de las
estimaciones de probabilidad de genotipo en base a
estos diferentes datos poblacionales de referencia.
En la tabla 2 se muestran las probabilidades de
genotipo estimadas (basadas en los datos de
frecuencia de alelos de la muestra de población
caucásica; tabla 1) donde los valores estimados del
primer conjunto (sesgados) son de ecuaciones (1) y
(2) y donde los segundos (no sesgados) son de
ecuación (Sa), y estos son valores multiplicados
sobre locus. Las últimas tres columnas de la tabla 2
representan los errores estándar del primer
conjunto de estimaciones; los valores estimados
son calculados usando las ecuaciones (7a - 7b), los
valores exactos salen de las ecuaciones (4) y (8), y
los empíricos son de simulaciones de distribuciones
multinomiales (2,000 repeticiones) con los datos de
frecuencia de alelos y tamaño muestral de la
muestra caucásica, mostrados en tabla 1. Para
cada caso, las aproximaciones resultan exactas
aun cuando se mantienen sólo los primeros
términos de las respectivas ecuaciones (p. ej., ecs.
[1] y [7]). Esto es así independientemente de las
frecuencias de alelos. El sesgo de estimación es
pequeño, como se desprende de la comparación de
las predicciones estimadas y exactas. Mientras que
los valores empíricos (promedios de simulación de
distribuciones
multinomiales
con
2,000
66
repeticiones) de las probabilidades de genotipos
generalmente concuerdan con las estimaciones
(exactas o aproximadas), los errores estándar
empíricos de las estimaciones siempre son
menores que los errores estándar estimados (a
partir de nuestras ecuaciones analíticas). Esto es
esperable, dado que aun en 2,000 repeticiones de
simulaciones, los genotipos poco comunes no
estarán representados. El método no es una buena
práctica para la estimación y, por lo tanto, reducirá
las probabilidades de genotipos pequeñas.
Chackraborty et al.
Intervalo Estimado de Frecuencias Genotípicas
67
Tabla I
Seis Ejemplos de Tipificación Genética en Trabajos Forenses para Tres Poblaciones
FRECUENCIAS (tamaño muestral) DE ALELOS
CATEGORIZADOS
CASO Y LOCUS
TAMAÑO DE BANDA
Caucásicos
Negros
Hispánicos
Otras insuficiencias de la varianza muestral de la probabilidad de genotipo estimada y el método de
conteo directo son discutidos también por Morton cuando se usan conteos relativos de genotipos. Esto,
(1992). Además, estos resultados numéricos, en efecto, indican que el uso de errores analíticos estándar
(con aproximación; ecs. [7a ~ 7b] sustituidas en ec. [8]) arrojarían un intervalo de confianza conservador
(más amplio que el empírico).
Tabla 2
Probabilidades Estimadas de Perfiles Genéticos, y sus Errores Estándar
ERROR ESTÁNDAR (de
ESTIMACIÓN DE
Pcom)
PROBABILIDAD DE
MUESTRA DE ADN
(P
com)
CASO
Estimado
Por ec.
Por ec.
1 Combinado
2 Combinados
3 Combinados
4 Combinados
5 Combinados
6 Combinados
Exacto
Empírico
68
Chackraborty et al.
Estimación de Intervalo de Confianza
La tabla 3 proporciona los intervalos de
confianza estimados para los seis casos descritos
en la tabla 1. Los intervalos de confianza estimados
salen de una aproximación normal de la distribución
muestral de ln(Pcom) mostrada en la ecuación (11),
mientras que los empíricos salen de 2,000
repeticiones de muestreo multinomial (para cada
locus)
usando
los
valores
paramétricos
correspondientes a los datos de la muestra
caucásica de la tabla 1. A partir de estos cálculos
pueden realizarse dos observaciones. Primero, los
intervalos de confianza empíricos para ln(Pcom) y
Pcom, son siempre más estrechos que los
estimados. Esto ocurre porque los genotipos poco
comunes no están representados en las
simulaciones, lo que estrecha artificialmente la
dispersión de las frecuencias de genotipo relativas
observadas, haciendo que el intervalo de confianza
resultante sea más estrecho de lo esperado.
Esto ilustra nuevamente la limitación del método de
conteo directo para la estimación de probabilidades
de genotipo pequeñas.
Segundo, cuando los
límites de confianza para Pcom son comparados con
sus respectivas estimaciones (mostradas en tabla
2), encontramos que la distribución muestral de
Pcom es asimétrica en torno a las estimaciones
puntuales, mientras que la simetría de intervalos de
confianza empíricos de ln(Pcom) en torno a sus
estimaciones puntuales garantiza la aproximación
normal usada (ec. [11]) para obtener los intervalos
de confianza estimados de la transformación
logarítmica de probabilidades de genotipo.
Prueba para Heterogeneidad de Probabilidades
Estimadas
Una vez estimada la probabilidad de un genotipo
multilocus específico, a menudo surge la cuestión
de si un estimado tal obtenido usando datos
muestreados de otra población de referencia sería
significativamente diferente. Generalmente, las
estimaciones empíricas de genotipos específicos,
derivadas de datos de varias poblaciones de
referencia alternativas, han presentado diferencias,
pero no de manera significativa (esto es, ningún
genotipo multilocus poco común en una población
pasa a ser común en otra población; p.ej., ver
Chakraborty and Kidd 1991; Weir 1992). Sin
embargo, la teoría descrita en las secciones previas
puede utilizarse para probar formalmente si las
probabilidades de genotipo multilocus estimadas en
base a diferentes conjuntos de datos de frecuencia
de alelos son significativamente diferentes. Esto
puede relizarse usando el criterio de prueba de
heterogeneidad X2 de Rao (Rao 1973), aplicado a
estimaciones de lnPcom, dado que la distribución
muestral de este estadístico se aproxima a una
distribución normal, como se vio anteriormente.
Suponga que t, = ln[Pcom(i)] denota el logaritmo de
la estimación de un perfil genético multilocus del
iésimo conjunto de datos de frecuencia de alelos i =
1, 2,..., r y que s2 es la varianza de esta estimación
(obtenida de ec. [10]).
Tabla 3
Estimaciones de Intervalos de Confianza de Frecuencias de Perfiles Genéticos Multilocus
95% superior
95% inferior
Estimación Puntual
95% superior
95% inferior
Intervalo Estimado de Frecuencias Genotípicas
Los diferentes conjuntos de frecuencias de alelos
podrían ser de poblaciones diferentes y/o podrían
ser datos de diferentes laboratorios. La
heterogeneidad de estas estimaciones se prueba
con el criterio
que está distribuido asintóticamente como un x 2 con
(r -1) df. Si este criterio de prueba sugiere que las
diferentes estimaciones no son heterogéneas, la
estimación agrupada está dada por
cuya varianza muestral es
La estimación agrupada de Pcom basada en todos
los datos de frecuencia de alelos disponibles
estaría entonces dada por er, mientras que su
intervalo de confianza puede obtenerse usando i y
S2en la ecuación (11) y trasladando los límites
superiores e inferiores, como se hizo anteriormente
para un conjunto único de datos de frecuencia de
alelos.
69
La tabla 4 muestra la aplicación de este
procedimiento de prueba para los seis conjuntos de
datos de genotipos presentados en la tabla 1. Se
obtuvieron estimaciones alternativas de estas
probabilidades de genotipo usando los datos de
frecuencia de alelos de las tres muestras
(caucásico, negro e hispánico) dados en la tabla 1.
Aunque estos ejemplos se usan sólo con fines
ilustrativos, los resultados son instructivos en varios
aspectos. Primero, es cierto que el uso de datos de
diferentes poblaciones de referencia puede arrojar
estimaciones diferentes de misma probabilidad de
perfil genético, pero tales diferencias sólo son
estadísticamente significativas (como es detectado
por el estadístico de heterogeneidad x2) cuando las
estimaciones son pequeñas (en estos ejemplos, por
debajo de 1 en 40,000). Segundo, para todos los
casos mostrados en la tabla 4, la heterogeneidad
del estadístico X2 es causada principalmente por la
baja estimación obtenida de la muestra de
afroamericanos. Esto es consistente con la historia
evolutiva de las poblaciones humanas. Los
afroamericanos, el 75% o más de cuyo acervo
genético es de origen africano (Reed 1969;
Chakraborty 1986; Chakraborty et al. 1992b),
representan probablemente el más antiguo de los
principales grupos raciales del mundo (Nei and
Roychoudhury 1982; Bowcock et al. 1991), y debido
a cruzamientos tanto pasados como recientes
también tienen la diversidad genética más alta
dentro de ellos. Esto no sólo es así en lo que
respecta a un mayor número de alelos
(Mohrenweiser et al. 1987), sino también en lo que
respecta a las frecuencias de alelos específicos
dentro de los negros, que son generalmente
menores en comparación con las de otros grupos
raciales.
Tabla 4
Prueba de Heterogeneidad de PO... Estimaciones de Muestras Diferentes
Caso y Estimación
Caucásicos
Negros
Hispánicos
70
Estas resultan en menores probabilidades de
genotipo (tanto a nivel mono-locus como
multilocus), lo que es consistente con los resultados
en la tabla 4. Tercero, las diferencias significativas
de estimaciones de probabilidad de genotipo
multilocus para los diferentes grupos raciales
pueden haber surgido también por el hecho de que
usamos distribuciones de tamaños de fragmentos
recategorizados (Budowle et al. 1991b) donde los
límites de las clases categorizadas son diferentes
para los tres grupos raciales, y por tanto las
diferentes estimaciones de probabilidad no siempre
corresponden a tamaños de fragmento idénticos.
Aplicaciones a Datos de Tipificación Genética
Forense
Aunque tanto en teoría como en aplicación
específicamente usamos el concepto de alelos y
genotipos discretos, los principios también aplican a
datos de tipificación de genética forense. En
aplicaciones forenses actuales de tipificación
genética, las muestras de ADN son digeridas con
una enzima de restricción y son hibridadas con un
VNTR mono-locus de prueba (p.ej. MS1, YNH24,
TBQ7, CMM101, V1; ver Nakamura et al. 1987;
Budowle et al. 1991a, 1991b). Estas generalmente
dan un patrón mono-banda o bi-banda debido a la
variación del número de copias de las secuencias
básicas de repetición en el locus VNTR. Los
tamaños (números aproximados de bases
apareadas) de las bandas relevantes son
determinados por algoritmos automatizados y
posterior comparación con estándares de tamaño
ejecutados simultáneamente en electroforesis con
gel Southern. Las limitaciones técnicas del
dimensionamiento de bandas con geles Southern
no pueden eliminar errores de medida (Budowle et
al. 1991a; Evett 1991; Berry et al. 1992), pero, en
general, los errores de medida son pequeños
(alrededor de 2.5% o menores) con respecto a los
tamaños de fragmentos VNTR. En lugar de definir
un alelo por su tamaño de fragmento, se han
sugerido
dos
abordajes
alternativos
de
"categorización" de tamaños de fragmentos en
datos poblacionales, estos son, categorías "fijas" o
"flotantes" (Budowle et al. 1991a, 1991b; Foreman
1991)- mediante los cuales los tamaños de
fragmento se agrupan según la extensión del error
de medida por rango de tamaño de longitudes de
fragmentos (bien por límites de clase fijos [Budowle
et al. 1991a] o permitiendo una cierta amplitud en
torno al tamaño específico observado para una
longitud de fragmento dada [Balazs et al. 1989;
Foreman 1991]). Los datos poblacionales de
longitudes de fragmentos corresponderían entonces
a clases categorizadas, análogamente a datos de
frecuencias de alelos para el caso del enfoque de
Chackraborty et al.
categoría fija. En el caso de categorías flotantes, no
existe un conjunto uniforme de categorías para
todos los tamaños de fragmentos. Pero, como para
cualquier individuo dado observamos hasta dos
tamaños de fragmento diferentes, los datos
poblacionales estarán agrupados en hasta tres
categorías específicamente construidas para la
observación dada. Esta definición de alelos
categorizados no presenta diferencias con las
definiciones tradicionales de alelos que están
basadas en la tecnología (Morris et al. 1989). Por lo
tanto, la lógica de la teoría aplica también a datos
de tipificación genética, y los errores de medida de
longitudes de fragmentos están incorporados en la
definición de alelos categorizados.
También debemos notar que, para patrones
genéticos mono-banda en un locus, usamos la
probabilidad p21, asumiendo que los patrones
mono-banda reflejan verdadera homocigosis. Es
conocido que esto puede no siempre ser cierto, ya
que los patrones mono-banda a veces pueden
resultar de la incapacidad de detectar otro alelo,
que es demasiado pequeño o demasiado grande
para ser valorado en el protocolo de gel Southern
(Budowle et al. 1991a; Chakraborty et al. 1992a).
Para prevenir esto, Budowle et al. (1991a) sugirió
un enfoque aun más conservador, representando la
probabilidad de un patrón mono-banda por 2p1. La
varianza para una estimación de probabilidad tal es
aun más simple, ya que V(P1) = 4p1 (1 – p1)/n, que
puede usarse en lugar de la fórmula dada en la
primera expresión de la ecuación (4) (o ec. [7a]).
Por analogía, la teoría aquí descrita también puede
usarse para determinar el error estándar o intervalo
de confianza de estimaciones de probabilidad de
fenotipo. La expresión para V (P1) debe ser
modificada para adecuarse a la definición de los
fenotipos. Como se mencionó anteriormente,
cuando este simple cambio al estimar una
probabilidad de genotipo homocigoto se utiliza en
conjunto con la regla de multiplicación en cadena,
resulta
una
sobreestimación
de
cualquier
probabilidad de genotipo multilocus, aun si la
población no es estrictamente de apareamiento
aleatorio (Chakraborty et al., in press-b).
A esta altura, volvemos al ejemplo de seis
genotipos mostrado en la tabla 1. Son, en efecto,
seis perfiles genéticos reales, y la segunda columna
de la tabla 1 indica los tamaños de fragmentos
VNTR (representados por x1l y X2l para las dos
bandas observadas en el iésimo locus) para los
locus VNTR correspondientes. Las frecuencias de
alelos en tres muestras (mostradas en los últimos
tres conjuntos de columnas de la tabla 1) son las
frecuencias de "alelos categorizados" para los
datos estudiados de caucásicos, negros e
hispánicos, recolectados en diferentes zonas
geográficas de los Estados Unidos por el Federal
Bureau of Investigation (FBI) Forensic Sciences
Intervalo Estimado de Frecuencias Genotípicas
Research Unit y publicados por Budowle et al.
(1991b).
Para ilustrar la naturaleza general de los
intervalos de confianza de las frecuencias de
perfiles genéticos para todos los individuos en la
base de datos del FBI, calculamos la estimación de
los perfiles genéticos observados de cada persona,
agrupándolos por su raza/origen étnico registrados
y usando las frecuencias de alelos categorizados
inherentes a la raza (Budowle et al. 1991b). Los
datos de tamaños de fragmentos para este análisis
fueron proporcionados por el Dr.
71
Chackraborty et al.
I.C. 95% de -log10 (probabilidad)
72
I.C. 95% de log10 (probabilidad)
-log10 (probabilidad)
I.C. 95% de -log10 (probabilidad)
-log10 (probabilidad)
Bruce Budowle (FBI Academy). La Figura 1
muestra las estimaciones de intervalo de confianza
graficadas contra las estimaciones puntuales para
el
perfil
genético
de
cada
individuo.
Específicamente, para el perfil genético de cada
individuo (basado en todos los locus valorados para
el individuo) en la base de datos, los límites
superior e inferior del intervalo de confianza al 95%
de Pcom se grafican contra Pcom, generando las
líneas de cada panel de la figura 1. El amplio rango
de estimaciones es esperable, ya que los datos
consisten en números variables de locus valorados
para individuos diferentes (desde un locus hasta
seis locus). Por lo tanto, en cada panel indicamos el
rango de estimaciones puntuales de frecuencias de
perfiles genéticos, indicado por puntos horizontales.
Todos los cálculos mostrados en esta figura están
en escala logarítmica (base 10).
A esta altura notamos que los valores numéricos
graficados en la figura 1 están basados en las
aproximaciones usadas al derivar las ecuaciones
(10) y (11). Aunque verificamos las exactitudes de
estas aproximaciones usando los seis ejemplos
mostrados en la tabla 1, estos ejemplos
representan realmente los perfiles genéticos de seis
individuos que están cerca de los promedios de
perfiles de un locus hasta seis locus, mostrados en
figura 1 B. La limitada cantidad de ilustraciones de
la adecuación de las aproximaciones no debería ser
un problema, dado que abarcan casi el rango
entero de probabilidades de genotipos multilocus en
la base de datos (ver fig. 1). De hecho, dado que el
perfil genético de cada individuo en la base de
datos es único, hubieran sido necesarias casi 2,000
(tamaño de la base de datos) simulaciones
diferentes (cada una con 2,000 repeticiones) para
verificar la exactitud de los valores numéricos
graficados en esta figura. No obstante, los datos
presentados en la tabla 3 indican que los límites de
confianza graficados son más amplios que los
empíricos, porque, aun con 2,000 repeticiones de
distribuciones multinomiales, los genotipos poco
comunes pueden no ser captados.
Los datos mostrados en la figura 1 ilustran tres
puntos. Primero, no es cierto, en general, que todo
perfil genético mono-locus sea más frecuente que
cualquier perfil de dos locus, ya que los puntos
horizontales se superponen para todos los grupos
étnicos. (C)
Pero, en general, la frecuencia del
perfil es una función decreciente del número de
locus valorados. Esto apoya la opinión de Crow (ver
Figura 1
Estimaciones de intervalo de confianza al 95% (C.I. 95%) para probabilidades de perfil genético observadas en
base de datos del FBI (Budowle et al. 1991b), graficadas contra las estimaciones. Todos los valores están en escala logarítmica (base
-log
10 (probabilidad)
10), de manera que las probabilidades y límites
de confianza deben interpretarse como 1/x, x en escala log (base lO). Los individuos son diferenciados en base a su origen
racial/étnico: A, 840 caucásicos; B, 583 negros; y C, 552 hispánicos. También mostrados en la gráfica como puntos horizontales están
los rangos de probabilidades de perfil genético estimadas para individuos que presentan datos de uno a seis locus en la base de datos.
Intervalo Estimado de Frecuencias Genotípicas
Roberts 1991) de que, cuantos más locus sean
valorados, la frecuencia de perfil genético
específica alcanzaría un valor menguante,
independientemente tanto del origen racial del
individuo como del perfil genético específico
observado.
73
74
Chackraborty et al.
Segundo, es cierto que el intervalo de confianza (a
juzgar por el cociente entre el límite superior y el
inferior) se amplía a medida que la frecuencia de
perfil se torna menos común (o, x se hace mayor).
Esta es una propiedad inherente al muestreo, y
explica cómo un perfil genético poco común puede
tener la suficiente fluctuación muestral para hacer
que los límites de confianza (superior e inferior)
difieran en más de un orden de magnitud. Tercero,
a pesar de que los errores estándar de
estimaciones de frecuencias de perfiles genéticos
poco comunes son relativamente grandes, esta
figura apoya la afirmación de Risch and Devlin's
(1992), de que, independientemente del origen
racial/étnico de los individuos, la mayoría de los
perfiles genéticos de cinco locus tienen una
frecuencia no mayor que 1 en 1 millón, en datos de
categoría fija.
Por lo tanto,
La simplificación algebraica de la ecuación [A4]
lleva a la expresión dada en la ecuación (4) para
homocigotos.
Para heterocigotos, debemos usar PI = 2p1q1
=2n1/n2l/n2. Una vez más, tal como lo indica
Johnson and Kotz (1969),
Agradecimientos
Este trabajo fue apoyado por las becas de
investigación NIH-IR01- GM41399 y NIJ-90-CX-0038.
Agradecemos al Dr. B. Budowle y su personal de
laboratorio por proporcionar los datos para análisis
reportados en este artículo. Los comentarios y
sugerencias de los Drs.
B. Budowle, E. Boerwinkle, y W. J. Schull y dos revisores
anónimos son muy apreciados. Las opiniones
expresadas en este documento son las de los autores, y
no necesariamente son avaladas por las agencias de
subvención que apoyan esta investigación.
y
Dividiendo la ecuación (A6) por n4 y reordenando
Apéndice
Derivación de la Ecuación (4)
Si en una muestra de n alelos (n/2 individuos), n1l y
n2l de ellos residen en las categorías B 1l y B2l, y las
esperanzas de estas frecuencias son
E(n1l) = np1 y E(n2l) = nql,
(A1)
donde p1 y ql son las probabilidades reales de que
los
fragmentos de ADN estén en las categorías B1l y
B2l en la población. Además, usando la teoría
general de muestreo multinomial (Johnson and Kotz
1969), tenemos
los términos, obtenemos la varianza de P1 para
heterocigotos que está dada en la segunda parte de
la ecuación (4).
Referencias
Albert ED, Baur MP, MayrWR (1984) Histo-compatibility
testing. Springer, New York
Balazs I, Baird M, Clyne M, Meade E (1989) Human
population genetic studies of five hypervariable DNA
loci. Am J Hum Genet 44:182-190
Berry DA, Evett 1W, Pinchin R (1992) Statistical inference
in crime investigations using deoxyribonucleic acid
profiling.
Appl Stat 41 :499-531
BowcockAM, KiddJR, MountainJL, HerbertJM, Carotenuto
L, Kidd KK, Cavalli-Sforza LL (1991) Drift, admixture,
and selection in human evolution: a study with DNA
polymorphisms. Proc Natl Acad Sci USA 88:839-843
Budowle B, Giusti AM, WayeJS, Baechtel FS, Fourney
RM, Adams DE, Presley LA, et al (1991a) Fixed-bin
analysis for statistical evaluation of continuous
Intervalo Estimado de Frecuencias Genotípicas
distributions of allelic data from VNTR loci, for use in
forensic comparisons. Am J Hum Genet 48:841-855
75
76
Budowle B, Monson KL, Anoe KS, Baechtel DL, Bergman
DL, Buel E, Campbell PA, et al (1991b) A preliminary
report on binned general population data on six
VNTR loci in caucasians, blacks and hispanics from
the United States. Crime Lab Dig 18:9-26
Chakraborty R (1986) Gene admixture in human
populations: models and predictions. Yearbook Phys
Anthropol 29:1-43
-------(1992) Sample size requirements for addressing the
population genetic issues of forensic use of DNA
typing. Hum Biol 56:141-159
Chakraborty R, Daiger SP (1991) Polymorphism at VNTR
loci suggest homogeneity of the white population of
Utah. Hum Biol 63:571-587
Chakraborty R, de Andrade M, Daiger SP, Budowle B
(1992a)
Apparent
heterozygote
deficiencies
observed in DNA typing data and their implications in
forensic applications. Ann Hum Genet 56:45-57
Chakraborty R,Jin L (1992) Heterozygote deficiency,
population substructure and their applications in DNA
fingerprinting. Hum Genet 88:267-272
Chakraborty R, Kamboh MI, Nwankwo M, Ferrell RE
(1992b) Caucasian genes in American blacks: new
data. Am J Hum Genet 50:145-155
Chakraborty R, Kidd KK (1991) The utility of DNA typing
in forensic work. Science 254:1735-1739
Chakraborty R, Srinivasan MR, de Andrade M. Estimation
of intraclass and interclass correlations of allele sizes
establishes random association of alleles within and
between loci in DNA typing data. Genetics (in pressa)
Chakraborty R, Srinivasan MR, Jin L, de Andrade M.
Effects of population subdivision and allele frequency
differences on interpretation of DNA typing data for
human identification. In: Proceedings of the Third
International Symposium on Human Identification.
Promega, Madison (in press-b)
Devlin B, Risch N, Roeder K (1990) No excess of
homozygosity at loci used for DNA fingerprinting.
Science 24: 1416-1420
------ (1991) Estimation of allele frequencies for VNTR
loci. Am J Hum Genet 48:662-676
Evett 1W (1991) Trivial error. Nature 354:114
Foreman L (1991) The role of DNA in courtroom: issues
and concerns in the analysis ofVNTRs for forensic
investigations. Am J Hum Genet Suppl 49:64
Goodman LA (1960) On the exact variance of products. J
Am Stat Assoc 55:708-713
------(1962) On the exact product of k random variables. J
Am Stat Assoc 57:54-60
Johnson NL, Kotz S (1969) Discrete distributions.
Houghton-Mifflin, Boston
Li CC (1976) First course in population genetics.
Boxwood, Pacific Grove, CA
Mohrenweiser HW, Wurzinger KH, Neel JV (1987)
Frequency and distribution of rare electrophoretic
mobility variants in a population of newborns in Ann
Arbor, Michigan. Ann Hum Genet 51:303-316
Morris JW, Sanda AI, GlassbergJ (1989) Biostatistical
evaluation of evidence from continuous allele
frequency distribution deoxyribonucleic acid (DNA) in
reference to disputed paternity identity. J Forensic
Sci 34:1311-1317
Morton NE (1992) Genetic structure of forensic
populations. Proc Natl Acad Sci USA 89:2256-2560
Chackraborty et al.
Mourant AE, Kopec AC, Domaniewska-Sobczak K (1976)
The distribution of the human blood groups and other
polymorphisms, 2d ed. Oxford University Press,
Oxford
Nakamura Y, Leppert M, O'Connell P, Wolff R, Holm T,
Culver M, Martin C, et al (1987) Variable number of
tandem repeat (VNTR) markers for human gene
mapping. Science 235:1616-1622
Nei M, Roychoudhury AK (1982) Genetic relationship and
evolution of human races. Evol Biol 14:1-59
Odelberg SJ, Platke R, EldridgeJR, Ballard L, O'Connell
P, Nakamura Y, Leppert M, et al (1989)
Characterization of eight VNTR loci by agarose gel
electrophoresis. Genomics 5:915-924
Rao CR (1973) Linear statistical inference and its
applications. John Wiley, New York
Reed TE (1969) Caucasian genes in American Negroes.
Science 165:762-768
Risch N, Devlin B (1992) On the probability of matching
DNA fingerprintings. Science 255:717-720
Roberts L (1991) Fight erupts over DNA fingerprinting.
Science 254:1721-1723
Solomon E, Rawlings C (eds) (1991) Human Gene
Mapping 11: Eleventh International Workshop on
Human Gene Mapping. Cytogenet Cell Genet 52:12000
Steinberg AG, Cook CE (1981) The distribution of human
immunoglobin allotypes. Oxford University Press,
Oxford
Tills D, Kopec AC, Tills RE (1983) The distribution of the
human blood groups and other polymorphisms, suppl
1. Oxford University Press, Oxford
Weir BS (1990) Genetic data analysis. Sinauer,
Sunderland, MA
------(1992) Independence of VNTR alleles defined as
fixed bins. Genetics 130:873-887
Documentos relacionados
Descargar