Am. J. Hum. Genet. 52:60-70, 1993 Evaluación de Error Estándar e Intervalo de Confianza de Probabilidades Estimadas de Genotipos Multilocus y sus Implicancias en Genética Forense Ranajit Chakraborty, M. R. Srinivasan, and Stephen P. Daiger Genetics Centers, Graduate School of Biomedical Sciences, University of Texas Health Science Center, Houston Resumen Las probabilidades de genotipos multilocus, estimadas usando el supuesto de asociación independiente de alelos dentro de y entre locus, están sujetas a fluctuación muestral, dado que las frecuencias de alelos empleadas en estos cálculos provienen de muestras tomadas de una población. Obtenemos varianzas muestrales exactas de probabilidades de genotipos estimadas y proporcionamos aproximaciones simples de varianzas muestrales. Las simulaciones computarizadas llevadas a cabo usando datos reales de tipificación genética indican que, si bien la distribución muestral de probabilidades de genotipos estimadas no es simétrica en torno a la estimación puntual, el intervalo de confianza de las probabilidades estimadas de genotipos (monolocus o multilocus) pueden obtenerse del muestreo de una transformación logarítmica de los valores estimados. Esto, a su vez, permite un estudio de la heterogeneidad de estimadores provenientes de datos de diferentes poblaciones de referencia. Las aplicaciones de esta teoría a datos de tipificación genética en locus VNTR sugieren que el uso de datos de diferentes poblaciones de referencia puede arrojar estimaciones significativamente diferentes. Sin embargo, generalmente las diferencias significativas ocurren con probabilidades de genotipos poco comunes (menos de 1 en 40,000). Las estimaciones conservadoras de probabilidades de perfil genético de cinco locus son siempre menos de 1 en 1 millón en un individuo de los Estados Unidos, independientemente del origen racial/étnico. Introducción Con más de 4,000 locus polimórficos genéticos descubiertos disponibles en el genoma humano (Solomon and Rawlings 1991), se ha vuelto posible definir genotipos multilocus en cualquier individuo específico para cualquier subconjunto dado de estos locus. Dado que muchos de estos locus presentan gran cantidad de alelos segregantes, el número de posibles genotipos multilocus puede ser muy grande. Por ejemplo, dado que un locus VNTR típico puede presentar fácilmente 20 o más alelos segregantes (Odelberg et al. 1989), cuatro de estos locus producirán [(20x21)/ 2]4 ≈2 billones de posibles genotipos o más. Para muchas aplicaciones de datos de genotipos multilocus, es importante conocer las frecuencias relativas de dichos genotipos en una población. Por lo tanto, es relevante considerar cómo estimar Recibido 18 junio, 1992; revisión recibida 24 agosto, 1992. Para correspondencia y reimpresiones diríjase a: Dr. Ranajit Chakraborty, Center for Demographic and Population Genetics, University of Texas Graduate School of Biomedical Sciences, P.O. Box 20334, Houston, TX 77225. © 1993 by The American Society of Human Genetics. Todos los derechos reservados. 0002-9297/93/5201-0007$02.00 las probabilidades de genotipos multilocus y asignar los límites de error de sus estimaciones. Intuitivamente, el método más simple y directo sería predecir probabilidades de genotipos (mono-locus o multilocus) a partir de sus frecuencias relativas observadas en una muestra. Esto es factible y resulta confiable para genotipos mono-locus en los locus de grupo sanguíneo y proteicos tradicionales (Mourant et al. 1976; Tills et al. 1983). Sin embargo, debido a la gran cantidad de alelos segregantes en locus VNTR y a que el número exacto de alelos posibles en estos locus puede ser desconocido (Chakraborty and Daiger 1991; Devlin et al. 1991), es evidente que deben emplearse métodos alternativos para estimar probabilidades de genotipos multilocus para locus VNTR (Chakraborty 1992). No obstante, este desafío no es exclusivo de locus VNTR. Intervalo Estimado de Frecuencias Genotípicas Las probabilidades de genotipos en locus HLA se calculan generalmente a partir de frecuencias de haplotipo HLA (Albert et al. 1984), y esta analogía también aplica para los cálculos de genotipo de inmunoglobulina Gm (Steinberg and Cook 1981). En otras palabras, la teoría de predicción de probabilidades de genotipos (mono-locus o multilocus) en base a datos de frecuencia de alelos ha sido utilizada basándose en expectativas de Hardy-Weinberg (EHW) para uniones aleatorias de alelos y en la regla de multiplicación en cadena para combinar probabilidades individuales de genotipos con locus específico (Li 1976). Claro está que para justificar este método es necesario establecer asociaciones aleatorias de alelos, tanto dentro de como entre locus, en datos de multilocus observados en una muestra, lo que ha sido objeto de varios estudios (Chakraborty and Kidd 1991; Risch and Devlin 1992; Weir 1992; Chakraborty et al., in press-a). Aunque es sabido que las desviaciones de las reglas de producto (es decir, EHW) y multiplicación en cadena (desequilibrios de fase gamética) pueden resultar de mezcla poblacional y/o subestructura presente en una población (Li 1976), en el contexto del análisis de datos de VNTR recolectados por la tipificación RFLP, se demuestra que ambas suposiciones son adecuadas. Por ejemplo, cuando se tuvieron en cuenta artefactos (como p.ej. resolución incompleta de alelos RFLP de tamaños similares) de la técnica electroforesis, Devlin et al. (1990) no manifestó ningún exceso significativo de homocigosis en datos de VNTR en las poblaciones de EUA. El uso de correlaciones intraclase de longitudes de fragmentos de ADN dentro de locus reveló que la suposición de EHW es razonable (Weir 1992; Chakraborty et al., in press-a), y no se observó desequilibrio significativo de fase gamética en el análisis realizado por Risch and Devlin (1992). Además, Chakraborty and Jin (1992) demostraron que la observación inicial de deficiencias de heterocigotos (equivalentes a exceso de homocigosis) señalada por Budowle et al. (1991a) no puede ser explicada sólo por subestructuración poblacional. La presencia de alelos no detectables y/o la resolución incompleta de alelos de tamaños similares es un factor más apropiado que explica estas observaciones (Chakraborty et al. 1992a). Finalmente, en otra parte (Chakraborty et al., in press-b) demostramos que las suposiciones de alelos dentro de y entre locus dan lugar a estimaciones conservadoras (sesgadas al alza) de probabilidades de genotipos multilocus, con una simple modificación de la estimación de probabilidades de genotipos homocigotos, como se indica más adelante en la presentación. Dado que, aun en el enfoque anterior, las probabilidades de genotipos estimadas dependen de estimaciones de frecuencia de alelos, que a su 61 vez están sujetas a fluctuación muestral, el propósito de este trabajo es evaluar los errores estándar de las estimaciones de probabilidades de genotipos multilocus en base a datos de frecuencia de alelos. Mostramos la derivación de la varianza muestral exacta para cualquier genotipo multilocus general. Además, alegamos que, dado que las probabilidades de genotipos multilocus generalmente son pequeñas, sus distribuciones muestrales no son simétricas en torno a la estimación puntual. Por lo tanto, discutimos un abordaje de estimación de intervalo de confianza de probabilidad de genotipos multilocus, usando las propiedades muestrales de una transformación logarítmica de estas probabilidades. La confiabilidad de esta metodología es verificada por simulación computarizada. Utilizando esta teoría, finalmente describimos una prueba de heterogeneidad de diferentes estimaciones de la misma probabilidad de genotipo multilocus, obtenida de diferentes poblaciones de referencia. Esto permite una interpretación estadística de la comparación de dos o más estimaciones, cada una de las cuales es pequeña, pero que pueden diferir bastante entre sí. Finalmente, discutimos lo apropiado de este tipo de análisis en el contexto de datos de tamaño de fragmentos VNTR, a causa de la naturaleza cuasi-continua de las medidas de tamaño de fragmentos VNTR en todas las muestras poblacionales. Frecuencias Relativas de Genotipos Multilocus y sus Errores Estándar Considere L locus codominantes autosomales en cada uno de los cuales hay múltiples alelos segregantes en una población. Para el eésimo locus (ℓ = 1, 2, . . . , L), bajo la suposición de equilibrio de Hardy-Weinberg, la probabilidad de genotipo P1 toma una de las dos siguientes formas: P1= p21 2p1q1 for homozygotes para heterocigotos, (1) donde p1 y q1 son las respectivas frecuencias de alelos en la población. Bajo la suposición de asociación aleatoria de alelos a través de locus (equilibrio de fase gamética; Li 1976; Weir 1990), para cualquier conjunto de L locus, la frecuencia de genotipo multilocus está dada por L Pcom = πP1 ℓ=1 (2) que asume que los alelos relevantes en diferentes locus se agregan aleatoriamente para formar genotipos multilocus en individuos de la población. Como se definió anteriormente, las ecuaciones (1) y (2) aplican a la población entera, y en la 62 práctica deben ser estimadas. Esto se realiza a partir de una muestra de individuos tomada de la población, de cuyos conteos de alelos en una muestra de n/2 individuos (esto es, n alelos) la estimación de p1 (o q1) resulta Chackraborty et al. Intervalo Estimado de Frecuencias Genotípicas Ρ1 = n1 n 63 (3) la cual, sustituida en la ecuación (1), da la estimación, P., de cualquier probabilidad de genotipo mono-locus. A través de la ecuación (2), esto a su vez genera la probabilidad multilocus estimada, digamos, Pcom. La aplicación directa de la teoría de muestreo de las distribuciones multinomiales (Johnson and Kotz 1969) da la varianza muestral de PI (para los pasos críticos de la derivación, vea el Apéndice), dada por simples que ignoran los términos de orden n-2 o menor. Utilizando la aproximación para cualquier función f(x) continua de una variable aleatoria x, tenemos y para homocigotos para heterocigotos Estas son las expresiones para la varianza exacta de P1 para cualquier probabilidad de genotipo mono-locus. Nótese que, cuando la probabilidad de genotipo es estimada a partir de frecuencias de alelos (usando la ec. [1]), las estimaciones no carecen de sesgo. Por ejemplo, para homocigotos para heterocigotos, (5) de modo que para cada homocigoto, P1 es una sobreestimación de la probabilidad real, mientras que para heterocigotos, P1 es una subestimación. El sesgo, no obstante, es despreciable cuando el tamaño muestral (n) es grande, digamos, cuando se muestrean 100 o más individuos. Existe otra razón por la cual puede no ser preferible un estimador no sesgado de P1. Por ejemplo, por ec. (5) el estimador no sesgado de p 1 resulta que son los primeros términos de la ecuación (4) para homocigotos y heterocigotos, respectivamente. Una vez obtenida V (PI) como se describió anteriormente, y dado que las P estimadas para diferentes locus son independientes, de Goodman (1960, 1992) tenemos para homocigotos (5a) para heterocigotos, y por lo tanto la estimación no sesgada de un genotipo homocigoto se hace cero si el alelo resulta tener sólo una copia en la muestra (es decir, P1 = 1/n y P1=1/n2). Las expresiones de la ecuación (4) son bastante complicadas, y se dispone de aproximaciones más donde G1 = V(PA)/P 2, que da la varianza muestral de la probabilidad estimada del genotipo multilocus. En la ecuación (8) pueden usarse las expresiones 64 exactas de V(P,), dadas por la ecuación (4), o bien sus aproximaciones, ecuaciones (7a - 7b); las aproximaciones son generalmente bastante exactas, lo que se demostrará a continuación. También pueden realizarse aproximaciones adicionales sin comprometer la exactitud de la varianza estimada Por ejemplo, en la ecuación (8), dado que cada valor de GI es generalmente pequeño, la varianza de Pcom puede aproximarse, manteniendo sólo la primera suma. Chackraborty et al. Intervalo Estimado de Frecuencias Genotípicas 65 Como el cálculo de la ecuación (8) no es tedioso, recomendamos que esta última aproximación es innecesaria, por lo que en este trabajo determinar L y U, que puede usarse para obtener el intervalo de confianza de Pcom, (eL,eU). En la siguiente sección demostramos que la aproximación dada en la ecuación (11) es bastante exacta para el propósito de generar intervalos de confianza de Pcom. se llamará "varianza aproximada de Pwm", donde V(P1) se calcula con las ecuaciones (7a 7b). Aplicaciones de la Teoría y Exactitud de las Aproximaciones Intervalo de Confianza de Probabilidad Multilocus Mientras que las ecuaciones (4), (7) y (8) proporcionan los errores muestrales de las probabilidades estimadas de cualquier genotipo multilocus, pueden no proporcionar un intervalo de confianza de Pcom exacto, ya que Pcom generalmente es pequeño y su distribución muestral no es simétrica en torno a la estimación puntual. En contraste, observando que la ecuación (2) da podemos usar la aproximación de la ecuación (6) para obtener que da un intervalo de confianza de lOOa% para donde Za es el valor bilateral lOOa% de una distribución normal estándar. Los límites superior e inferior, U y L respectivamente, del intervalo representado por la ecuación (11) pueden transformarse para obtener el intervalo de confianza de Pcom, dado por (eL,eU). O bien, dado que Pcom se obtiene de un conjunto de probabilidades estimadas P1 y q1, y su n asociada para cada locus, el intervalo de confianza empírico de ln(Pcom) puede generarse simulando distribución multinomial (hasta tres clases para cada locus) para Sesgo de Pcorn Estimada y Exactitud de Varianza Aproximada de Pcom En la tabla 1 presentamos seis ejemplos de la aplicación de la teoría descrita en las secciones previas. Por el momento, suponga que hay seis datos de genotipo, dando perfiles de genotipo basados en datos de mono-locus (caso 1) hasta seis locus (caso 6), donde las columnas bajo el título "x1l" y "X21" pueden considerarse como las designaciones alélicas de los genotipos. También se presentan en esta tabla las frecuencias de los alelos para cada locus computado (para cada genotipo) en tres muestras poblacionales. En esta sección, consideraremos los datos de frecuencia de alelos para la primer muestra poblacional, para ilustrar los cálculos teóricos descritos anteriormente; y en una sección posterior consideraremos los restantes datos de frecuencia de alelos, para examinar la heterogeneidad de las estimaciones de probabilidad de genotipo en base a estos diferentes datos poblacionales de referencia. En la tabla 2 se muestran las probabilidades de genotipo estimadas (basadas en los datos de frecuencia de alelos de la muestra de población caucásica; tabla 1) donde los valores estimados del primer conjunto (sesgados) son de ecuaciones (1) y (2) y donde los segundos (no sesgados) son de ecuación (Sa), y estos son valores multiplicados sobre locus. Las últimas tres columnas de la tabla 2 representan los errores estándar del primer conjunto de estimaciones; los valores estimados son calculados usando las ecuaciones (7a - 7b), los valores exactos salen de las ecuaciones (4) y (8), y los empíricos son de simulaciones de distribuciones multinomiales (2,000 repeticiones) con los datos de frecuencia de alelos y tamaño muestral de la muestra caucásica, mostrados en tabla 1. Para cada caso, las aproximaciones resultan exactas aun cuando se mantienen sólo los primeros términos de las respectivas ecuaciones (p. ej., ecs. [1] y [7]). Esto es así independientemente de las frecuencias de alelos. El sesgo de estimación es pequeño, como se desprende de la comparación de las predicciones estimadas y exactas. Mientras que los valores empíricos (promedios de simulación de distribuciones multinomiales con 2,000 66 repeticiones) de las probabilidades de genotipos generalmente concuerdan con las estimaciones (exactas o aproximadas), los errores estándar empíricos de las estimaciones siempre son menores que los errores estándar estimados (a partir de nuestras ecuaciones analíticas). Esto es esperable, dado que aun en 2,000 repeticiones de simulaciones, los genotipos poco comunes no estarán representados. El método no es una buena práctica para la estimación y, por lo tanto, reducirá las probabilidades de genotipos pequeñas. Chackraborty et al. Intervalo Estimado de Frecuencias Genotípicas 67 Tabla I Seis Ejemplos de Tipificación Genética en Trabajos Forenses para Tres Poblaciones FRECUENCIAS (tamaño muestral) DE ALELOS CATEGORIZADOS CASO Y LOCUS TAMAÑO DE BANDA Caucásicos Negros Hispánicos Otras insuficiencias de la varianza muestral de la probabilidad de genotipo estimada y el método de conteo directo son discutidos también por Morton cuando se usan conteos relativos de genotipos. Esto, (1992). Además, estos resultados numéricos, en efecto, indican que el uso de errores analíticos estándar (con aproximación; ecs. [7a ~ 7b] sustituidas en ec. [8]) arrojarían un intervalo de confianza conservador (más amplio que el empírico). Tabla 2 Probabilidades Estimadas de Perfiles Genéticos, y sus Errores Estándar ERROR ESTÁNDAR (de ESTIMACIÓN DE Pcom) PROBABILIDAD DE MUESTRA DE ADN (P com) CASO Estimado Por ec. Por ec. 1 Combinado 2 Combinados 3 Combinados 4 Combinados 5 Combinados 6 Combinados Exacto Empírico 68 Chackraborty et al. Estimación de Intervalo de Confianza La tabla 3 proporciona los intervalos de confianza estimados para los seis casos descritos en la tabla 1. Los intervalos de confianza estimados salen de una aproximación normal de la distribución muestral de ln(Pcom) mostrada en la ecuación (11), mientras que los empíricos salen de 2,000 repeticiones de muestreo multinomial (para cada locus) usando los valores paramétricos correspondientes a los datos de la muestra caucásica de la tabla 1. A partir de estos cálculos pueden realizarse dos observaciones. Primero, los intervalos de confianza empíricos para ln(Pcom) y Pcom, son siempre más estrechos que los estimados. Esto ocurre porque los genotipos poco comunes no están representados en las simulaciones, lo que estrecha artificialmente la dispersión de las frecuencias de genotipo relativas observadas, haciendo que el intervalo de confianza resultante sea más estrecho de lo esperado. Esto ilustra nuevamente la limitación del método de conteo directo para la estimación de probabilidades de genotipo pequeñas. Segundo, cuando los límites de confianza para Pcom son comparados con sus respectivas estimaciones (mostradas en tabla 2), encontramos que la distribución muestral de Pcom es asimétrica en torno a las estimaciones puntuales, mientras que la simetría de intervalos de confianza empíricos de ln(Pcom) en torno a sus estimaciones puntuales garantiza la aproximación normal usada (ec. [11]) para obtener los intervalos de confianza estimados de la transformación logarítmica de probabilidades de genotipo. Prueba para Heterogeneidad de Probabilidades Estimadas Una vez estimada la probabilidad de un genotipo multilocus específico, a menudo surge la cuestión de si un estimado tal obtenido usando datos muestreados de otra población de referencia sería significativamente diferente. Generalmente, las estimaciones empíricas de genotipos específicos, derivadas de datos de varias poblaciones de referencia alternativas, han presentado diferencias, pero no de manera significativa (esto es, ningún genotipo multilocus poco común en una población pasa a ser común en otra población; p.ej., ver Chakraborty and Kidd 1991; Weir 1992). Sin embargo, la teoría descrita en las secciones previas puede utilizarse para probar formalmente si las probabilidades de genotipo multilocus estimadas en base a diferentes conjuntos de datos de frecuencia de alelos son significativamente diferentes. Esto puede relizarse usando el criterio de prueba de heterogeneidad X2 de Rao (Rao 1973), aplicado a estimaciones de lnPcom, dado que la distribución muestral de este estadístico se aproxima a una distribución normal, como se vio anteriormente. Suponga que t, = ln[Pcom(i)] denota el logaritmo de la estimación de un perfil genético multilocus del iésimo conjunto de datos de frecuencia de alelos i = 1, 2,..., r y que s2 es la varianza de esta estimación (obtenida de ec. [10]). Tabla 3 Estimaciones de Intervalos de Confianza de Frecuencias de Perfiles Genéticos Multilocus 95% superior 95% inferior Estimación Puntual 95% superior 95% inferior Intervalo Estimado de Frecuencias Genotípicas Los diferentes conjuntos de frecuencias de alelos podrían ser de poblaciones diferentes y/o podrían ser datos de diferentes laboratorios. La heterogeneidad de estas estimaciones se prueba con el criterio que está distribuido asintóticamente como un x 2 con (r -1) df. Si este criterio de prueba sugiere que las diferentes estimaciones no son heterogéneas, la estimación agrupada está dada por cuya varianza muestral es La estimación agrupada de Pcom basada en todos los datos de frecuencia de alelos disponibles estaría entonces dada por er, mientras que su intervalo de confianza puede obtenerse usando i y S2en la ecuación (11) y trasladando los límites superiores e inferiores, como se hizo anteriormente para un conjunto único de datos de frecuencia de alelos. 69 La tabla 4 muestra la aplicación de este procedimiento de prueba para los seis conjuntos de datos de genotipos presentados en la tabla 1. Se obtuvieron estimaciones alternativas de estas probabilidades de genotipo usando los datos de frecuencia de alelos de las tres muestras (caucásico, negro e hispánico) dados en la tabla 1. Aunque estos ejemplos se usan sólo con fines ilustrativos, los resultados son instructivos en varios aspectos. Primero, es cierto que el uso de datos de diferentes poblaciones de referencia puede arrojar estimaciones diferentes de misma probabilidad de perfil genético, pero tales diferencias sólo son estadísticamente significativas (como es detectado por el estadístico de heterogeneidad x2) cuando las estimaciones son pequeñas (en estos ejemplos, por debajo de 1 en 40,000). Segundo, para todos los casos mostrados en la tabla 4, la heterogeneidad del estadístico X2 es causada principalmente por la baja estimación obtenida de la muestra de afroamericanos. Esto es consistente con la historia evolutiva de las poblaciones humanas. Los afroamericanos, el 75% o más de cuyo acervo genético es de origen africano (Reed 1969; Chakraborty 1986; Chakraborty et al. 1992b), representan probablemente el más antiguo de los principales grupos raciales del mundo (Nei and Roychoudhury 1982; Bowcock et al. 1991), y debido a cruzamientos tanto pasados como recientes también tienen la diversidad genética más alta dentro de ellos. Esto no sólo es así en lo que respecta a un mayor número de alelos (Mohrenweiser et al. 1987), sino también en lo que respecta a las frecuencias de alelos específicos dentro de los negros, que son generalmente menores en comparación con las de otros grupos raciales. Tabla 4 Prueba de Heterogeneidad de PO... Estimaciones de Muestras Diferentes Caso y Estimación Caucásicos Negros Hispánicos 70 Estas resultan en menores probabilidades de genotipo (tanto a nivel mono-locus como multilocus), lo que es consistente con los resultados en la tabla 4. Tercero, las diferencias significativas de estimaciones de probabilidad de genotipo multilocus para los diferentes grupos raciales pueden haber surgido también por el hecho de que usamos distribuciones de tamaños de fragmentos recategorizados (Budowle et al. 1991b) donde los límites de las clases categorizadas son diferentes para los tres grupos raciales, y por tanto las diferentes estimaciones de probabilidad no siempre corresponden a tamaños de fragmento idénticos. Aplicaciones a Datos de Tipificación Genética Forense Aunque tanto en teoría como en aplicación específicamente usamos el concepto de alelos y genotipos discretos, los principios también aplican a datos de tipificación de genética forense. En aplicaciones forenses actuales de tipificación genética, las muestras de ADN son digeridas con una enzima de restricción y son hibridadas con un VNTR mono-locus de prueba (p.ej. MS1, YNH24, TBQ7, CMM101, V1; ver Nakamura et al. 1987; Budowle et al. 1991a, 1991b). Estas generalmente dan un patrón mono-banda o bi-banda debido a la variación del número de copias de las secuencias básicas de repetición en el locus VNTR. Los tamaños (números aproximados de bases apareadas) de las bandas relevantes son determinados por algoritmos automatizados y posterior comparación con estándares de tamaño ejecutados simultáneamente en electroforesis con gel Southern. Las limitaciones técnicas del dimensionamiento de bandas con geles Southern no pueden eliminar errores de medida (Budowle et al. 1991a; Evett 1991; Berry et al. 1992), pero, en general, los errores de medida son pequeños (alrededor de 2.5% o menores) con respecto a los tamaños de fragmentos VNTR. En lugar de definir un alelo por su tamaño de fragmento, se han sugerido dos abordajes alternativos de "categorización" de tamaños de fragmentos en datos poblacionales, estos son, categorías "fijas" o "flotantes" (Budowle et al. 1991a, 1991b; Foreman 1991)- mediante los cuales los tamaños de fragmento se agrupan según la extensión del error de medida por rango de tamaño de longitudes de fragmentos (bien por límites de clase fijos [Budowle et al. 1991a] o permitiendo una cierta amplitud en torno al tamaño específico observado para una longitud de fragmento dada [Balazs et al. 1989; Foreman 1991]). Los datos poblacionales de longitudes de fragmentos corresponderían entonces a clases categorizadas, análogamente a datos de frecuencias de alelos para el caso del enfoque de Chackraborty et al. categoría fija. En el caso de categorías flotantes, no existe un conjunto uniforme de categorías para todos los tamaños de fragmentos. Pero, como para cualquier individuo dado observamos hasta dos tamaños de fragmento diferentes, los datos poblacionales estarán agrupados en hasta tres categorías específicamente construidas para la observación dada. Esta definición de alelos categorizados no presenta diferencias con las definiciones tradicionales de alelos que están basadas en la tecnología (Morris et al. 1989). Por lo tanto, la lógica de la teoría aplica también a datos de tipificación genética, y los errores de medida de longitudes de fragmentos están incorporados en la definición de alelos categorizados. También debemos notar que, para patrones genéticos mono-banda en un locus, usamos la probabilidad p21, asumiendo que los patrones mono-banda reflejan verdadera homocigosis. Es conocido que esto puede no siempre ser cierto, ya que los patrones mono-banda a veces pueden resultar de la incapacidad de detectar otro alelo, que es demasiado pequeño o demasiado grande para ser valorado en el protocolo de gel Southern (Budowle et al. 1991a; Chakraborty et al. 1992a). Para prevenir esto, Budowle et al. (1991a) sugirió un enfoque aun más conservador, representando la probabilidad de un patrón mono-banda por 2p1. La varianza para una estimación de probabilidad tal es aun más simple, ya que V(P1) = 4p1 (1 – p1)/n, que puede usarse en lugar de la fórmula dada en la primera expresión de la ecuación (4) (o ec. [7a]). Por analogía, la teoría aquí descrita también puede usarse para determinar el error estándar o intervalo de confianza de estimaciones de probabilidad de fenotipo. La expresión para V (P1) debe ser modificada para adecuarse a la definición de los fenotipos. Como se mencionó anteriormente, cuando este simple cambio al estimar una probabilidad de genotipo homocigoto se utiliza en conjunto con la regla de multiplicación en cadena, resulta una sobreestimación de cualquier probabilidad de genotipo multilocus, aun si la población no es estrictamente de apareamiento aleatorio (Chakraborty et al., in press-b). A esta altura, volvemos al ejemplo de seis genotipos mostrado en la tabla 1. Son, en efecto, seis perfiles genéticos reales, y la segunda columna de la tabla 1 indica los tamaños de fragmentos VNTR (representados por x1l y X2l para las dos bandas observadas en el iésimo locus) para los locus VNTR correspondientes. Las frecuencias de alelos en tres muestras (mostradas en los últimos tres conjuntos de columnas de la tabla 1) son las frecuencias de "alelos categorizados" para los datos estudiados de caucásicos, negros e hispánicos, recolectados en diferentes zonas geográficas de los Estados Unidos por el Federal Bureau of Investigation (FBI) Forensic Sciences Intervalo Estimado de Frecuencias Genotípicas Research Unit y publicados por Budowle et al. (1991b). Para ilustrar la naturaleza general de los intervalos de confianza de las frecuencias de perfiles genéticos para todos los individuos en la base de datos del FBI, calculamos la estimación de los perfiles genéticos observados de cada persona, agrupándolos por su raza/origen étnico registrados y usando las frecuencias de alelos categorizados inherentes a la raza (Budowle et al. 1991b). Los datos de tamaños de fragmentos para este análisis fueron proporcionados por el Dr. 71 Chackraborty et al. I.C. 95% de -log10 (probabilidad) 72 I.C. 95% de log10 (probabilidad) -log10 (probabilidad) I.C. 95% de -log10 (probabilidad) -log10 (probabilidad) Bruce Budowle (FBI Academy). La Figura 1 muestra las estimaciones de intervalo de confianza graficadas contra las estimaciones puntuales para el perfil genético de cada individuo. Específicamente, para el perfil genético de cada individuo (basado en todos los locus valorados para el individuo) en la base de datos, los límites superior e inferior del intervalo de confianza al 95% de Pcom se grafican contra Pcom, generando las líneas de cada panel de la figura 1. El amplio rango de estimaciones es esperable, ya que los datos consisten en números variables de locus valorados para individuos diferentes (desde un locus hasta seis locus). Por lo tanto, en cada panel indicamos el rango de estimaciones puntuales de frecuencias de perfiles genéticos, indicado por puntos horizontales. Todos los cálculos mostrados en esta figura están en escala logarítmica (base 10). A esta altura notamos que los valores numéricos graficados en la figura 1 están basados en las aproximaciones usadas al derivar las ecuaciones (10) y (11). Aunque verificamos las exactitudes de estas aproximaciones usando los seis ejemplos mostrados en la tabla 1, estos ejemplos representan realmente los perfiles genéticos de seis individuos que están cerca de los promedios de perfiles de un locus hasta seis locus, mostrados en figura 1 B. La limitada cantidad de ilustraciones de la adecuación de las aproximaciones no debería ser un problema, dado que abarcan casi el rango entero de probabilidades de genotipos multilocus en la base de datos (ver fig. 1). De hecho, dado que el perfil genético de cada individuo en la base de datos es único, hubieran sido necesarias casi 2,000 (tamaño de la base de datos) simulaciones diferentes (cada una con 2,000 repeticiones) para verificar la exactitud de los valores numéricos graficados en esta figura. No obstante, los datos presentados en la tabla 3 indican que los límites de confianza graficados son más amplios que los empíricos, porque, aun con 2,000 repeticiones de distribuciones multinomiales, los genotipos poco comunes pueden no ser captados. Los datos mostrados en la figura 1 ilustran tres puntos. Primero, no es cierto, en general, que todo perfil genético mono-locus sea más frecuente que cualquier perfil de dos locus, ya que los puntos horizontales se superponen para todos los grupos étnicos. (C) Pero, en general, la frecuencia del perfil es una función decreciente del número de locus valorados. Esto apoya la opinión de Crow (ver Figura 1 Estimaciones de intervalo de confianza al 95% (C.I. 95%) para probabilidades de perfil genético observadas en base de datos del FBI (Budowle et al. 1991b), graficadas contra las estimaciones. Todos los valores están en escala logarítmica (base -log 10 (probabilidad) 10), de manera que las probabilidades y límites de confianza deben interpretarse como 1/x, x en escala log (base lO). Los individuos son diferenciados en base a su origen racial/étnico: A, 840 caucásicos; B, 583 negros; y C, 552 hispánicos. También mostrados en la gráfica como puntos horizontales están los rangos de probabilidades de perfil genético estimadas para individuos que presentan datos de uno a seis locus en la base de datos. Intervalo Estimado de Frecuencias Genotípicas Roberts 1991) de que, cuantos más locus sean valorados, la frecuencia de perfil genético específica alcanzaría un valor menguante, independientemente tanto del origen racial del individuo como del perfil genético específico observado. 73 74 Chackraborty et al. Segundo, es cierto que el intervalo de confianza (a juzgar por el cociente entre el límite superior y el inferior) se amplía a medida que la frecuencia de perfil se torna menos común (o, x se hace mayor). Esta es una propiedad inherente al muestreo, y explica cómo un perfil genético poco común puede tener la suficiente fluctuación muestral para hacer que los límites de confianza (superior e inferior) difieran en más de un orden de magnitud. Tercero, a pesar de que los errores estándar de estimaciones de frecuencias de perfiles genéticos poco comunes son relativamente grandes, esta figura apoya la afirmación de Risch and Devlin's (1992), de que, independientemente del origen racial/étnico de los individuos, la mayoría de los perfiles genéticos de cinco locus tienen una frecuencia no mayor que 1 en 1 millón, en datos de categoría fija. Por lo tanto, La simplificación algebraica de la ecuación [A4] lleva a la expresión dada en la ecuación (4) para homocigotos. Para heterocigotos, debemos usar PI = 2p1q1 =2n1/n2l/n2. Una vez más, tal como lo indica Johnson and Kotz (1969), Agradecimientos Este trabajo fue apoyado por las becas de investigación NIH-IR01- GM41399 y NIJ-90-CX-0038. Agradecemos al Dr. B. Budowle y su personal de laboratorio por proporcionar los datos para análisis reportados en este artículo. Los comentarios y sugerencias de los Drs. B. Budowle, E. Boerwinkle, y W. J. Schull y dos revisores anónimos son muy apreciados. Las opiniones expresadas en este documento son las de los autores, y no necesariamente son avaladas por las agencias de subvención que apoyan esta investigación. y Dividiendo la ecuación (A6) por n4 y reordenando Apéndice Derivación de la Ecuación (4) Si en una muestra de n alelos (n/2 individuos), n1l y n2l de ellos residen en las categorías B 1l y B2l, y las esperanzas de estas frecuencias son E(n1l) = np1 y E(n2l) = nql, (A1) donde p1 y ql son las probabilidades reales de que los fragmentos de ADN estén en las categorías B1l y B2l en la población. Además, usando la teoría general de muestreo multinomial (Johnson and Kotz 1969), tenemos los términos, obtenemos la varianza de P1 para heterocigotos que está dada en la segunda parte de la ecuación (4). Referencias Albert ED, Baur MP, MayrWR (1984) Histo-compatibility testing. Springer, New York Balazs I, Baird M, Clyne M, Meade E (1989) Human population genetic studies of five hypervariable DNA loci. Am J Hum Genet 44:182-190 Berry DA, Evett 1W, Pinchin R (1992) Statistical inference in crime investigations using deoxyribonucleic acid profiling. Appl Stat 41 :499-531 BowcockAM, KiddJR, MountainJL, HerbertJM, Carotenuto L, Kidd KK, Cavalli-Sforza LL (1991) Drift, admixture, and selection in human evolution: a study with DNA polymorphisms. Proc Natl Acad Sci USA 88:839-843 Budowle B, Giusti AM, WayeJS, Baechtel FS, Fourney RM, Adams DE, Presley LA, et al (1991a) Fixed-bin analysis for statistical evaluation of continuous Intervalo Estimado de Frecuencias Genotípicas distributions of allelic data from VNTR loci, for use in forensic comparisons. Am J Hum Genet 48:841-855 75 76 Budowle B, Monson KL, Anoe KS, Baechtel DL, Bergman DL, Buel E, Campbell PA, et al (1991b) A preliminary report on binned general population data on six VNTR loci in caucasians, blacks and hispanics from the United States. Crime Lab Dig 18:9-26 Chakraborty R (1986) Gene admixture in human populations: models and predictions. Yearbook Phys Anthropol 29:1-43 -------(1992) Sample size requirements for addressing the population genetic issues of forensic use of DNA typing. Hum Biol 56:141-159 Chakraborty R, Daiger SP (1991) Polymorphism at VNTR loci suggest homogeneity of the white population of Utah. Hum Biol 63:571-587 Chakraborty R, de Andrade M, Daiger SP, Budowle B (1992a) Apparent heterozygote deficiencies observed in DNA typing data and their implications in forensic applications. Ann Hum Genet 56:45-57 Chakraborty R,Jin L (1992) Heterozygote deficiency, population substructure and their applications in DNA fingerprinting. Hum Genet 88:267-272 Chakraborty R, Kamboh MI, Nwankwo M, Ferrell RE (1992b) Caucasian genes in American blacks: new data. Am J Hum Genet 50:145-155 Chakraborty R, Kidd KK (1991) The utility of DNA typing in forensic work. Science 254:1735-1739 Chakraborty R, Srinivasan MR, de Andrade M. Estimation of intraclass and interclass correlations of allele sizes establishes random association of alleles within and between loci in DNA typing data. Genetics (in pressa) Chakraborty R, Srinivasan MR, Jin L, de Andrade M. Effects of population subdivision and allele frequency differences on interpretation of DNA typing data for human identification. In: Proceedings of the Third International Symposium on Human Identification. Promega, Madison (in press-b) Devlin B, Risch N, Roeder K (1990) No excess of homozygosity at loci used for DNA fingerprinting. Science 24: 1416-1420 ------ (1991) Estimation of allele frequencies for VNTR loci. Am J Hum Genet 48:662-676 Evett 1W (1991) Trivial error. Nature 354:114 Foreman L (1991) The role of DNA in courtroom: issues and concerns in the analysis ofVNTRs for forensic investigations. Am J Hum Genet Suppl 49:64 Goodman LA (1960) On the exact variance of products. J Am Stat Assoc 55:708-713 ------(1962) On the exact product of k random variables. J Am Stat Assoc 57:54-60 Johnson NL, Kotz S (1969) Discrete distributions. Houghton-Mifflin, Boston Li CC (1976) First course in population genetics. Boxwood, Pacific Grove, CA Mohrenweiser HW, Wurzinger KH, Neel JV (1987) Frequency and distribution of rare electrophoretic mobility variants in a population of newborns in Ann Arbor, Michigan. Ann Hum Genet 51:303-316 Morris JW, Sanda AI, GlassbergJ (1989) Biostatistical evaluation of evidence from continuous allele frequency distribution deoxyribonucleic acid (DNA) in reference to disputed paternity identity. J Forensic Sci 34:1311-1317 Morton NE (1992) Genetic structure of forensic populations. Proc Natl Acad Sci USA 89:2256-2560 Chackraborty et al. Mourant AE, Kopec AC, Domaniewska-Sobczak K (1976) The distribution of the human blood groups and other polymorphisms, 2d ed. Oxford University Press, Oxford Nakamura Y, Leppert M, O'Connell P, Wolff R, Holm T, Culver M, Martin C, et al (1987) Variable number of tandem repeat (VNTR) markers for human gene mapping. Science 235:1616-1622 Nei M, Roychoudhury AK (1982) Genetic relationship and evolution of human races. Evol Biol 14:1-59 Odelberg SJ, Platke R, EldridgeJR, Ballard L, O'Connell P, Nakamura Y, Leppert M, et al (1989) Characterization of eight VNTR loci by agarose gel electrophoresis. Genomics 5:915-924 Rao CR (1973) Linear statistical inference and its applications. John Wiley, New York Reed TE (1969) Caucasian genes in American Negroes. Science 165:762-768 Risch N, Devlin B (1992) On the probability of matching DNA fingerprintings. Science 255:717-720 Roberts L (1991) Fight erupts over DNA fingerprinting. Science 254:1721-1723 Solomon E, Rawlings C (eds) (1991) Human Gene Mapping 11: Eleventh International Workshop on Human Gene Mapping. Cytogenet Cell Genet 52:12000 Steinberg AG, Cook CE (1981) The distribution of human immunoglobin allotypes. Oxford University Press, Oxford Tills D, Kopec AC, Tills RE (1983) The distribution of the human blood groups and other polymorphisms, suppl 1. Oxford University Press, Oxford Weir BS (1990) Genetic data analysis. Sinauer, Sunderland, MA ------(1992) Independence of VNTR alleles defined as fixed bins. Genetics 130:873-887