Diseño de bases de datos para todos los públicos

Anuncio
Diseño de bases de datos
para todos los públicos
Fernando Cano Espinosa
Juan David González Cobas
Mayo de 2003
1.
Conceptos previos
Antes de introducirnos en los problemas de diseño de bases de datos relacionales se hace necesario estudiar algunos conceptos básicos asociados fundamentalmente a las dependencias funcionales (DF).
Vamos a definir una DF α → β, siendo α y β conjunto de atributos (columnas de una tabla), como una restricción que nos dice que cada valor concreto de
los atributos α está asociado a un valor concreto de los atributos β. Es decir que
si dos filas de una relación comparten el mismo valor para α entonces deben
tener el mismo valor para β:
t1 [α] = t2 [α] =⇒ t1 [β] = t2 [β]
(1)
Para ilustrar el concepto de DF supongamos que en una tabla tenemos una
columna Profesor y otra Asignatura, entonces P rof esor → Asignatura nos dice
que para un determinado Profesor sólo puede existir una Asignatura, en lenguaje más natural: un profesor sólo imparte una asignatura. O como decíamos
antes, que si en dos filas aparece el nombre de un Profesor debe aparecer la
misma asignatura.
Con las DF podemos expresar cierto tipo de restricciones, no todas, que nos
van a permitir estudiar la bondad de las tablas que contiene nuestra base de
datos.
Definamos L como el conjunto de restricciones que deben cumplir nuestros
datos (columnas) expresadas mediante DFs. Casi siempre podremos deducir
nuevas restricciones partiendo de un conjunto L inicial. Por ejemplo, si un código postal determina la localidad (CP → LOC) y la localidad determina la
provincia (LOC → P ROV ) entonces podremos deducir por transitividad que
un código postal sólo pertenece a una provincia (CP → P ROV ). Existen algoritmos (Anexo II) que nos permiten calcular el conjunto total de DFs que
afectan a nuestro conjunto de datos. A dicho conjunto se le denomina cierre del
conjunto de dependencias y se expresa como L+ . Lógicamente en L+ existirán
1
Diseño de bases de datos
muchas DF redundantes (CP → P ROV ) y triviales (CP LOC → CP ), pero
también contamos con un algoritmo (Anexo III) que nos permite calcular un
conjunto minimal de DF. A estos conjuntos de DF donde ’no sobra nada’ se le
denomina Recubrimiento canónico o Recubrimiento minimal.
Por último vamos a definir el cierre de un conjunto de atributos, expresado
como α+ como el conjunto de todos los atributos que dependen funcionalmente de α. Evidentemente también existe un algoritmo sencillo para calcularlo
(Anexo I).
Todos los algoritmos anteriormente mencionados pueden consultarse en
cualquier libro clásico de fundamentos de bases de datos o de manera informal
en los anexos, pero para el desarrollo de este tema el realmente útil es el cierre
de un conjunto de atributos.
2.
Un pequeño ejemplo
Vamos a plantearnos un sencillo ejemplo para ilustrar los problemas que
suelen presentarse a la hora de diseñar una base de datos relacional. Nuestro
objetivo será definir un conjunto de tablas que nos permita almacenar, modificar y recuperar toda nuestra información de forma sencilla, partiendo de
una serie de restricciones. Nuestro ejemplo consiste en una base de datos que
contendrá información sobre alumnos, asignaturas, notas y profesores. Las restricciones de las que partimos son las siguientes:
Un alumno sólo tiene asignado un profesor por asignatura
Un alumno obtiene una única nota por asignatura
Un profesor sólo puede dar clase de una asignatura
Podríamos plantearnos mantener todos los datos en una única tabla. Utilizaremos el siguiente ejemplo:
Alumno
Luis
Luis
Carlos
Marta
Pepe
Asignatura
Física
Filosofía
Física
Física
Filosofía
Profesor
Newton
Kant
Einstein
Newton
Kant
Nota
5
7
6
5
4
Llamaremos a este esquema R(T, L), para poner de manifiesto que estará compuesto por el conjunto de atributos T y el conjunto de restricciones L
expresadas como dependencias funcionales.
R(T, L) : T = {Alumno, Asignatura, Profesor, Nota}
L=
{Alumno Asignatura → Profesor,
Alumno Asignatura → Nota,
Profesor → Asignatura}
Revisión 26 de abril de 2010
Diseño de bases de datos
Del conjunto de restricciones podemos deducir que el par (Alumno, Asignatura) funciona como clave candidata para el esquema, al igual que (Alumno,
Profesor), ya que podemos deducir que
Alumno Profesor → Asignatura
Alumno Profesor → Nota
∈ L+
∈ L+
De momento vamos a definir la tabla con (Alumno, Asignatura) como clave
primaria, mediante la orden SQL:
create table R (
alumno
asignatura
profesor
nota
primary key
);
3.
varchar(15) not null,
varchar(15) not null,
varchar(15) not null,
integer,
(alumno, asignatura)
Anomalías de actualización
Si observamos nuestra tabla, podemos ver que nuestra decisión de mantener en ella toda la información conduce a varios inconvenientes.
Repetición de información Dado que un profesor sólo imparte clases de una
única asignatura, se produce una redundancia de datos. En nuestro ejemplo, la mención de que Marta cursa Física es redundante, puesto que sabemos que su profesor, Newton, sólo da clase de Física. Lo mismo ocurre
con la asignatura de Filosofía que cursa Pepe.
En la actualidad, dadas las altas prestaciones de los ordenadores y el precio del byte de Ram y de disco, el problema fundamental de la repetición
de información no es el desperdicio de espacio sino otros problemas derivados del mantenimiento de información repetida, que enumeramos a
continuación.
Anomalías en la inserción y en la actualización Al insertar una fila nueva (en
SQL, INSERT) o actualizar una ya existente (en SQL, UPDATE), tendremos que comprobar que la información que introducimos es consistente. Por ejemplo, si quiero insertar un alumno Dalmacio cuyo profesor es
Newton, debo comprobar que cursa Física; de no hacerlo así, sería posible
violar la dependencia funcional Profesor→Asignatura, es decir, permitir
que Newton imparta más de una asignatura.
Anomalías en el borrado El problema que se nos presenta aquí no es un problema de inconsistencia, sino de pérdida de información. Si, por ejemplo,
borramos la única fila en la que aparece Einstein, desaparece la información de que éste es profesor de Física.
Revisión 26 de abril de 2010
Diseño de bases de datos
Representación de Información Este problema está íntimamente ligado al anterior y se basa en que nuestro esquema no nos permite guardar algunos
hechos. Por ejemplo, aunque sepamos qué profesores dan cada asignatura, no puedo guardar dicha información hasta que no tenga alumnos
matriculados en ella. La opción de dejar valores nulos no es válida generalmente, ya que algunos campos que deberían quedar en blanco (no
tenemos información de ellos) están declarados como not null por formar parte de la clave primaria, por lo tanto el sistema no me permite
dejarlos ’en blanco’.
Imposición de las restricciones Imponer la restricción de que un alumno sólo tiene un profesor por asignatura resulta tan sencillo como el declarar
(Alumno, Asignatura) como clave primaria. Sin embargo, garantizar el
cumplimiento de las dependencias funcionales cuya parte izquierda no
es clave candidata no es así de sencillo.
Por ejemplo, comprobar la dependencia Profesor→Asignatura requeriría
establecer en SQL un check como este:
alter table R add constraint PRO_ASIG
check (not exists (
select profesor
from
R
group by profesor
having count(distinct asignatura) > 1));
Otra solución podría ser evitar que se inserten o actualicen tuplas que
contradigan la restricción mediante triggers. En cualquier caso, nos vemos obligados a agregar más código, lo que es posiblemente innecesario
y ralentiza la ejecución de nuestras modificaciones a la base de datos.
Ante este tipo de anomalías, una solución consiste en descomponer nuestro esquema original en varios subesquemas de forma que dichas anomalías
se eviten. Este proceso se conoce como normalización. No siempre es posible
encontrar una descomposición que elimine todas las posibles anomalías. En algunos casos, la normalización resuelve ciertos problemas, pero introduce otros.
Revisión 26 de abril de 2010
Diseño de bases de datos
4.
Descomposiciones
Vamos a comenzar definiendo formalmente lo que es una descomposición.
Sea R un esquema de relación. Un conjunto {R1 , R2 , . . . , Rn } de esquemas de
relación es una descomposición de R si
n
[
Ri = R
(2)
i=1
es decir, cada atributo de R aparece por lo menos en uno de los Ri . En la práctica, cuando descomponemos un esquema en un conjunto de subesquemas,
incluimos en éstos atributos comunes. El objetivo de esto es poder recuperar
posteriormente la información que se ha guardado en distintas tablas a través
de operaciones de join.
Vamos a ver cómo una descomposición puede resolver algunos de los problemas mencionados en la sección 3. La propuesta es dividir nuestro esquema R(T, L) en dos subesquemas R1 (T1 , L1 ) y R2 (T2 , L2 ).
R1
Alumno
Luis
Luis
Carlos
Marta
Pepe
Asignatura
Física
Filosofía
Física
Física
Filosofía
R2
Nota
5
7
6
5
4
Profesor
Newton
Kant
Einstein
Asignatura
Física
Filosofía
Física
Es evidente que esta descomposición nos resuelve algunos problemas: se
repite menos información; a un profesor sólo se le puede asignar una asignatura (profesor es la clave primaria de R2 ); y podemos guardar información de
la asignatura que imparte cada profesor aunque no tengamos alumnos matriculados.
Pero nos aparece un problema nuevo: ya no sabemos qué profesor tiene cada alumno en una determinada asignatura. Ante la pregunta de quién da clase
de Física a Luis, no podemos saber si es Newton o Einstein con la información
que las tablas R1 y R2 nos proporcionan. Nos pasa igual con Marta, aunque
no con los alumnos de Filosofía, ya que únicamente tenemos al profesor Kant
impartiéndola.
Este problema se conoce con el nombre de descomposición con pérdida de información, generalmente denominado como lossy-join. Cuando esta situación
no se da, y toda la información que existía previamente puede recuperarse
después de la descomposición, decimos que se cumple la propiedad losslessjoin o LJ (ciertamente, la “L” podría ser abreviatura tanto de “lossy” como de
“lossless”, pero la vida es así de dura a veces).
La aparición de la temible palabra join tiene que ver con la definición formal
de la propiedad. Cuando la descomposición es con pérdida, al hacer la reunión
Revisión 26 de abril de 2010
Diseño de bases de datos
de los subesquemas no obtenemos el esquema original. En nuestro ejemplo,
para esta reunión la consulta apropiada sería:
select
from
r1.alumno, r1.asignatura,
r2.profesor, r1.nota
r1 inner join r2
on r1.asignatura = r2.asignatura
Y el resultado sería:
R1 .Alumno
Luis
Luis
Luis
Carlos
Carlos
Marta
Marta
Pepe
R1 .Asignatura
Física
Física
Filosofía
Física
Física
Física
Física
Filosofía
R2 .Profesor
Newton
Einstein
Kant
Newton
Einstein
Newton
Einstein
Kant
R1 .Nota
5
5
7
6
6
5
5
4
Y evidentemente nos aparecen tres filas más (en sombreado) que en la tabla
R original. El problema radica en el hecho de que hay más de un profesor de
Física, con lo que al reunir (realizar el producto natural) R1 y R2 , a cada alumno
de Física se le empareja con todos los profesores de Física, dando lugar a filas
espurias que contienen información incorrecta.
Revisión 26 de abril de 2010
Diseño de bases de datos
5.
Descomposición con la propiedad LJ
(Lossless-Join)
Para formalizar lo anterior vamos a retomar el concepto formal de descomposición. Como anteriormente, sea R un esquema de una relación y consideremos una descomposición {R1 , R2 , . . . , Rn } (en el sentido de la definición 2).
Sea r una instancia de la relación (los valores actuales del conjunto de filas
que contiene la tabla) con esquema R; definimos las instancias ri de Ri como
ri = Ri (r) = πTi (r). De esta forma, {R1 , R2 , . . . , Rn } es la base de datos que
resulta de descomponer R en sus proyecciones sobre los conjuntos de atributos
{T1 , T2 , . . . , Tn }.
Pues bien, puede demostrarse que siempre se da la siguiente inclusión:
n
⊲⊳ ri ⊇ r
i=1
(3)
es decir, las tuplas de la relación original siempre se recuperan realizando una
reunión natural de las proyecciones ri . Desgraciadamente, también pueden
aparecer otras nuevas.
Se puede ver que en nuestro caso se cumple esta afirmación, ya que el conjunto de filas original es un subconjunto del obtenido tras de realizar el producto natural de r1 y r2 . A estas alturas está claro que nuestro objetivo es realizar una descomposición en la que ambos conjuntos sean iguales, es decir, que
cumpla la propiedad LJ.
Decimos que una descomposición {R1 , R2 , . . . , Rn } de un esquema R es sin
pérdidas (lossless) cuando se verifica la identidad
n
⊲⊳ ri = r
i=1
(4)
es decir, la relación original se recupera siempre realizando la reunión de las
relaciones proyección que resultan de la descomposición.
De forma más coloquial, podemos decir que la descomposición de una tabla
R en una serie de tablas más reducidas, cumple la propiedad LJ si al hacer el
inner join de todas estas tablas resultantes siempre obtendremos las mismas
filas que teníamos en la tabla de partida.
Para conseguir esto en nuestro ejemplo, sería necesario que al cruzar una
fila de la tabla R1 sólo obtuviéramos una fila de la tabla R2 que cumpliera la
condición
R1 .Asignatura = R2 .Asignatura
o dicho de otra forma, que cada asignatura de la tabla R2 sólo apareciera una
vez. Esto también se puede formalizar: el hecho se conoce como
Teorema 1. (Heath) Dado un esquema R(T, L), la descomposición R1 (R), R2 (R)
es una descomposición sin pérdida (propiedad LJ) si y sólo si alguna de las siguientes
dependencias funcionales se pueden deducir de L (pertenecen a L+ ):
Revisión 26 de abril de 2010
R1 ∩ R2
→
R1 − R2
R1 ∩ R2
→
R2 − R1
Diseño de bases de datos
O lo que es lo mismo:
R1 ∩ R2
→
R1
R1 ∩ R2
→
R2
Estas dependencias funcionales nos viene a decir que los atributos comunes
a las dos tablas funcionan como clave (más exactamente, superclave) en alguna
de ellas.
Aprovechando este formalismo, vamos a dejar enunciado el siguiente teorema sobre descomposiciones con la propiedad LJ:
Teorema 2. Sea el esquema R(T, L) y sea ρ = {R1 , R2 , . . . , Rk } una descomposición
de R con la propiedad LJ respecto de L. Si τ = {S1 , S2 , . . . , Sk } es una descomposición
de Ri con la propiedad LJ respecto de Li (proyección de L+ sobre Ti ), entonces γ =
{R1 , R2 , . . . , Ri − 1, S1, S2, . . . , Sk, Ri + 1, . . . , Er} es una descomposición de R
respecto L con la propiedad LJ.
Siguiendo con nuestro ejemplo, vemos que Asignatura es el atributo común
a ambas tablas y no es clave en ninguna de ellas. Por eso, la descomposición
propuesta resultó ser con pérdidas.
Otra descomposición alternativa que sí cumpliría la propiedad LJ sería la
siguiente:
Alumno
Luis
Luis
Carlos
Marta
Pepe
R1
Profesor
Newton
Kant
Einstein
Newton
Kant
Nota
5
7
6
5
4
Profesor
Newton
Kant
Einstein
R2
Asignatura
Física
Filosofía
Física
La descomposición es sin pérdida, ya que Profesor, el atributo común, es
clave en R2 .
En principio, nuestro problema parece resuelto, pero si miramos con atención aún pueden aparecer algunas complicaciones. Si alguien, por error, introduce una nueva fila en la tabla R1 con los valores (“Luis”, “Einstein”, 4) (puede
hacerlo ya que no se viola la unicidad de la clave primaria), nos encontraremos
con el dilema de si Luis tiene aprobada la asignatura de Física o no, además de
no saber si su profesor es Newton o Einstein:
Alumno
Luis
Luis
Carlos
Marta
Pepe
Luis
Revisión 26 de abril de 2010
R1
Profesor
Newton
Kant
Einstein
Newton
Kant
Einstein
Nota
5
7
6
5
4
4
R2
Profesor Asignatura
Newton Física
Kant
Filosofía
Einstein Física
Diseño de bases de datos
Lo que sucede en este caso es que no estamos cumpliendo las restricciones
de que un alumno tiene un único profesor y una única nota en cada asignatura
(Alumno Asignatura → P rof esorN ota)
No ocurre lo mismo con la dependencia Profesor→Asignatura, que se exige
al declarar Profesor como clave primaria en R2 .
Este nuevo problema se conoce como descomposición con pérdida de dependencias funcionales.
6.
Descomposición sin pérdida de dependencias
Cuando imponemos un conjunto de restricciones mediante dependencias
funcionales debemos ser conscientes de las consecuencias que esto tiene a la
hora de implementar la base de datos. Hacer que se cumplan ciertas restricciones en una tabla es casi siempre costoso. Cuando se trata de DFs que se
traducen en definir claves candidatas (PRIMARY KEY o UNIQUE), la solución
es sencilla desde el punto de vista del programador de la base de datos. Para otras DFs que involucran a atributos de una misma tabla también tenemos
algunas alternativas (por ejemplo mediantes CHECKs). La cuestión tiene mayores inconvenientes cuando en las restricciones intervienen atributos que se
encuentran localizados en distintas tablas. Esto suele realizarse mediante asertos (CREATE ASSERTION) de la base de datos, aunque, si es posible, es mejor evitarlos. No tenemos que olvidar que normalmente hablamos de sistemas
multiusuario y las tablas pueden estar bloqueadas por otro usuario cuando nosotros necesitamos acceder a ellas para comprobar ciertas restricciones. Lo que
se pretende, por tanto, es que las restricciones se exijan a nivel de tabla, es decir,
que ante inserciones o modificaciones de datos en una tabla no sea necesario
consultar otras. Visto esto formalicemos el problema.
Sea el esquema R(T, L), donde L son las dependencias estipuladas para la relación R. Sea {R1 , R2 , . . . , Rk } la descomposición de R con esquemas
Ri (Ti , Li ), construidos de modo que Li es la proyección de L+ sobre Ti , es decir
Li = (X → Y ) ∈ L+ | (X ∪ Y ) ⊆ Ti
(5)
Por tanto cada Li será el conjunto de restricciones que involucra atributos
únicamente de Ri , es decir, aquellas dependencias funcionales que se pueden
comprobar de forma independiente en Ri .
Hay que tener cuidado con la engañosa simplicidad de la definición anterior. Las dependencias que afectan a cada relación Ri pueden no resultar necesariamente de la proyección de las dependencias originales sobre los atributos Ti de Ri . Por ejemplo, en una relación R(A, B, C) con dependencias dadas
por el recubrimiento L = {A → B, B → C} la proyección sobre R1 (A, C) debe
satisfacer la dependencia A → C, aunque ésta no se obtiene proyectando el
recubrimiento expresado en la definición de R:
π(A,C) (L) = φ
Revisión 26 de abril de 2010
pero
A → C ∈ L1 = π(A,C) (L+ )
Diseño de bases de datos
de forma que es preciso deducir (un recubrimiento de) todas las dependencias
que pueden afectar solamente a los atributos A y C para conocer L1 .
Consideremos el conjunto L′ = ∪Li , es decir, la reunión de todas las dependencias impuestas a cada esquema Ri . En general L′ ⊆ L, pero puede darse
el caso de que una dependencia del conjunto L pueda deducirse de L′ aun
no apareciendo explícitamente en L′ ; es decir, se encuentre en (L′ )+ . Para que
la descomposición siga imponiendo (a nivel de tabla) las dependencias originales, será entonces preciso que (L′ )+ = L+ . Si esto ocurre se dice que la
descomposición preserva las dependencias.
Traducido a lenguaje menos simbólico, la descomposición preserva dependencias si al imponer las dependencias relativas a cada tabla de la descomposición, todas las originales resultan impuestas también, al poder deducirse de
ellas.
De forma muy poco rigurosa, podemos expresar la pérdida de dependencias de la siguiente forma. Si tenemos una restricción l (impuesta como una
DF), en la que están implicadas ciertas columnas de una tabla R y descomponemos R en una serie de tablas, puede darse el caso de que dichas columnas
quede repartidas en diferentes tablas y para comprobar la restricción l ahora
tengamos que textitmirar en más de una tabla.
Observemos qué es lo que sucede en nuestro ejemplo.
Esquema de partida:
Atributos:
Dependencias:
Descomposición:
Atributos:
R(T, L)
T = {Alumno, Asignatura, Profesor, Nota}
L = {Alumno Asignatura → Profesor,
Alumno Asignatura → Nota,
Profesor → Asignatura,
Alumno Profesor → Nota}
R1 (T1 , L1 ), R2 (T2 , L2 )
T1 = {Alumno, Profesor, Nota}
T2 = {Profesor, Asignatura}
Dependencias:
L1 = {Alumno Profesor → Nota}
L2 = {Profesor→Asignatura}
En suma:
L′ = {Alumno Profesor→Nota,
Profesor→Asignatura}
Como vemos la dependencia Alumno Asignatura→Profesor no aparece explícitamente en L′ ; igual ocurre con Alumno Asignatura→Nota. Pero, además,
tampoco se pueden deducir de dicho conjunto. Por este motivo, si no establecemos procedimientos adicionales a la hora de realizar actualizaciones en nuestras tablas, nos podemos encontrar con inconsistencias como las mencionadas
en la sección 3.
Existe un mecanismo para comprobar si esto ocurre: cuando dudemos de
si una restricción de la forma X → Y se exige o no, bastará con calcular el
cierre X + de X respecto al conjunto L′ , y si Y aparece en dicho cierre, la dependencia se estará imponiendo.
Revisión 26 de abril de 2010
Diseño de bases de datos
Aún más, hay un algoritmo que nos facilita este proceso sin la necesidad
de calcular cada Li (cálculo que, como vimos, puede resultar equívoco), y es el
que se presenta a continuación.
El algoritmo se basa en la R-operación sobre el conjunto de atributos Z respecto de L como la sustitución de Z por Z ∪ ((Z ∩ Ti )+ ∩ Ti ). Repitiendo esta
operación para cada uno de los conjuntos de atributos Ti hasta que el conjunto Z no cambie, obtenemos el algoritmo siguiente
Z⇐X
while Z cambie and not Y ∈ Z do
for i = 1 to K do {siendo K el número de subesquemas}
Z = Z ∪ ((Z ∩ Ti )+ ∩ Ti )
end for
end while
if Y 6∈ Z then
Se pierde la dependencia X → Y
else
Se conserva la dependencia X → Y
end if
Aplicando este algoritmo se puede comprobar que nuestra descomposición
de R es una descomposición con pérdida de dependencias.
Revisión 26 de abril de 2010
Diseño de bases de datos
7.
Estudio de Normalización
Llegados a este punto, la pregunta es si existe alguna otra alternativa que
no presente ninguno de los anteriores problemas. La respuesta depende de cada base de datos en concreto, pero en nuestro caso la respuesta es negativa.
No siempre es así, de hecho nuestro ejemplo ha sido elegido para ilustrar estos problemas. En general, el cumplir la propiedad LJ debe ser una exigencia
básica que debe satisfacer cualquier descomposición, pero en el caso de descomposiciones con pérdidas habrá que analizar las ventajas e inconvenientes
de las posibles descomposiciones y de las implicaciones de su implementación
en un sistema real de gestión de bases de datos.
Hasta el momento hemos visto qué tipos de problemas nos puede presentar
una tabla y qué propiedades son deseables que cumpla una descomposición.
Ahora vamos a centrarnos en el estudio de la calidad de un esquema R(T, L),
lo que se conoce como estudio de normalización. Lo que se pretende es dar
una clasificación, de mayor a menor, de la posibilidad de encontrarnos con
problemas a la hora de implementar un esquema (tabla), teniendo en cuenta las
restricciones que se deben cumplir impuestas como dependencias funcionales.
Realmente es un estudio sobre la posibilidad de que nos aparezca redundancia
de información. Cuanto mayor es el grado de repetición de información más
problemas tendremos. Para esto se definen 4 formas normales: Primera Forma
Normal (1FN), 2FN, 3FN y Forma Normal de Boyce-Codd (FNBC), en este orden.
Cuanto más alta sea la forma normal que alcancemos, menor repetición de
información tendremos a priori.
Estas forma normales que vamos a ver están basadas en las Dependencias
Funcionales. Existen otras formas normales superiores (4FN y 5FN) basadas
en otro tipo de dependencias que no vamos a ver aquí. Lo que se pretende es
analizar qué formas normales alcanzan las tablas que conforman nuestra base
de datos.
Antes de entrar a fondo con la normalización es importante recalcar que se
trata de una recomendación general, pero que en bastantes ocasiones es muy
aconsejable no respetarla.
7.1.
Primera Forma Normal (1FN)
Un esquema R(T, L) está en 1FN cuando todas sus columnas (atributos de
T ) son simples. Dicho de otra forma, cada columna de una tabla debe estar
definida sobre un tipo simple de datos (entero, real, cadena, etc.) y no un tipo
estructurado (registro, lista, matriz, etc.). Realmente, no es necesario ser tan
exigente; lo que se busca con esta forma normal es que cada atributo se trate
como un valor atómico.
Para ilustrarlo, vamos a suponer que tenemos un tipo de dato estructurado
fecha, con los campos día, mes y año. Si el tratamiento que hago sobre la fecha
es de forma conjunta podríamos decir que estamos cumpliendo la 1FN, pero si
vamos a trabajar con cada uno de lo campos de forma independiente, no.
Revisión 26 de abril de 2010
Diseño de bases de datos
Por ejemplo, si el sueldo de un trabajador depende funcionalmente del valor fecha.mes (Operario Fecha.Mes → Sueldo) entonces sería más recomendable
tener tres columnas (día, mes y año) en lugar de la columna fecha. Como vemos,
la 1FN es una recomendación, ya que muchos gestores de bases de datos nos
permiten definir tipos de datos estructurados, tales como matrices.
7.2.
Segunda forma normal (2FN)
Un esquema R(T, L) en 1FN está en 2FN cuando todos sus atributos no
principales (aquellos que no forman parte de ninguna clave candidata) tienen
dependencia funcional total (completa) respecto de cada una de las claves candidatas.
En algunos textos se habla únicamente de la clave primaria y no del resto
de las claves candidatas. Para ver que esto no es así vamos a utilizar nuestro
ejemplo con una pequeña modificación: vamos a incluir en T el atributo que
nos diga el departamento al que pertenece el profesor. Tomemos el siguiente
esquema:
Esquema:
R(T, L)
Atributos:
T = {Alumno, Asignatura, Profesor, Nota, Departamento }
Dependencias:L = {Alumno Asignatura → Profesor,
Alumno Asignatura → Nota,
Profesor → Asignatura,
Profesor → Departamento}
Tomemos como clave primaria (Alumno Asignatura), de manera que Departamento tiene una dependencia funcional completa con respecto a ella. No
ocurre lo mismo con la otra clave candidata (Alumno Profesor) ya que Departamento tiene una dependencia parcial de ella, porque sólo depende de Profesor.
Es cierto que en este esquema se repite redundantemente la información del
Departamento siempre que se repita un determinado profesor, y por tanto no
cumple la 2FN. Consecuentemente, un esquema en 1FN cuyas claves candidatas están formadas por un solo atributo siempre está en 2FN.
7.3.
Tercera Forma Normal (3FN)
Un esquema R(T, L) en 2FN está en 3FN cuando ningún atributo no principal depende transitivamente de ninguna clave.
Entre X y Z existe una dependencia transitiva (X ։ Z) si se cumple que
Revisión 26 de abril de 2010
X ∩Z
=
φ
∃Y : X ∩ Y
X → Y, Y 9 X
=
y
φ, Y ∩ Z = φ
Y →Z
Diseño de bases de datos
Se dice que Z es una información sobre X, pero de forma indirecta, ya que
realmente Z es una información sobre Y , e Y sobre X.
Aunque nuestro esquema no cumple la 2FN, este tipo de transitividad también se presenta:
Alumno Asignatura → Profesor
Profesor 9 Alumno Asignatura
Profesor → Departamento
Luego: Alumno Asignatura ։ Departamento
Esto sucede porque Departamento es una información propia del Profesor
y no de la asignatura de un alumno. Por eso cada vez que se repite el profesor
se repetirá la asignatura que imparte.
Otra forma equivalente, aunque algo más sencilla, de comprobar si un esquema está en 3FN es la siguiente: un esquema estará en 3FN si para toda dependencia funcional no trivial X → A ( es decir que A * X ) se cumple alguna
de las siguientes condiciones:
1. X es una superclave de R
2. A está contenida en una clave candidata de R
Aunque se habla de superclaves, si trabajamos con un conjunto de dependencias sin atributos extraños (por ejemplo un recubrimiento no redundante)
podemos hablar directamente de claves candidatas.
En nuestro esquema R vemos que la dependencia Profesor → Departamento no cumple ninguna de las dos condiciones.
7.4.
Forma Normal de Boyce-Codd (FNBC)
Un esquema R(T, L) en 1FN está en BCFN cuando para toda dependencia
funcional no trivial X → Y (es decir, Y * X , Y 6= φ), se cumple que:
1. X es una clave o superclave de R.
Vemos que ahora somos más restrictivos y exigimos que se cumpla únicamente la condición 1 para estar en 3FN. Por lo tanto es evidente que todo
esquema que esté en FNBC también estará en 3FN.
Para ver la diferencia entre FNBC y 3FN vamos a retomar nuestro esquema
original:
R(T, L) : T = {Alumno, Asignatura, Profesor, Nota}
L=
Claves Candidatas
Revisión 26 de abril de 2010
=
{Alumno Asignatura → Profesor,
Alumno Asignatura → Nota,
Profesor → Asignatura}
{(Alumno Asignatura), (Alumno Profesor)}
Diseño de bases de datos
Ahora R sí que está en 3FN, ya que en las dos primeras dependencias su
parte izquierda es una clave candidata (condición 1) y en la dependencia Profesor → Asignatura, Asignatura es un atributo principal (condición 2). Pero
es por esta última dependencia por lo que R no alcanza la FNBC. De hecho,
en R tenemos repetición de información, como ya se ha mencionado en varias
ocasiones.
Hay un aspecto de la FNBC que la hace muy interesante a la hora de implementar la base de datos. Si todas la tablas están en FNBC, podemos hacer
cumplir las dependencias funcionales asociadas a cada tabla mediante la restricción PRIMARY KEY (para la clave primaria) y UNIQUE (para el resto de
claves candidatas). Es decir con estas dos palabras reservadas de SQL no necesitamos implementar ningún otro procedimiento adicional. Sin embargo en
3FN las dependencias del tipo Profesor → Asignatura suelen tener un coste
computacional elevado, como ya se mencionó anteriormente.
Aún así, tenemos que ser conscientes de que el declarar un conjunto de
atributos como clave candidata, ya sea mediante PRIMARY KEY o UNIQUE,
también lleva un alto coste asociado. Los sistemas de gestión de bases de datos
suelen construir automáticamente, cuando hacemos estas declaraciones, un índice con estos atributos (frecuentemente se utilizan árboles balanceados). Estos
índices le permiten al sistema agilizar las comprobaciones de valores únicos
ante inserciones o modificaciones de las columnas implicadas. Por otro lado
debemos tener cierta confianza y pensar que los sistemas suelen hacer estas
operaciones de forma muy optimizada y por tanto no parece mala la idea de
que sean ellos los que se encarguen de estas comprobaciones.
Resumiendo todo lo anteriormente visto, a la hora de realizar un diseño de
una base de datos debemos plantearnos lo siguiente. Si un esquema o tabla
no alcanza una forma normal satisfactoria, por ejemplo FNBC, que reduzca la
repetición de información, entonces podemos realizar una descomposición de
la misma. Esta descomposición debe cumplir: la propiedad LJ; que si es posible
conserve dependencias; y que las tablas obtenidas alcancen una forma normal
más adecuada. Esto no siempre es posible, y a veces lo que ganamos por un
lado lo perdemos por otro. En este sentido existe un algoritmo que describimos
a continuación y que nos asegura una descomposición con la propiedad LJ y
que todas las tablas obtenidas alcanzan la FNBC.
Algoritmo de descomposición en FNBC con la Propiedad LJ
Partimos de R(T, L) donde L es un recubrimiento no redundante. Si existe
una dependencia X →A tal que X no sea clave (por tanto no está en FNBC),
proyectamos R en R1 = (T1 , L1 ) y R2 = (T2 , L2 ), con
T1
= X ∪ {A}
T2
= T − {A}
y
Podemos ver una de las condiciones para que la descomposición cumpla la
propiedad LJ ( T1 ∩ T2 → T1 − T2 ) siempre se cumple, ya que (T1 ∩ T2 ) es X y
Revisión 26 de abril de 2010
Diseño de bases de datos
(T1 − T2 ) es A, y por tanto, se trata de la propia dependencia X → A. Es decir,
los atributos comunes (X) funcionan como clave por lo menos en uno de los
subesquemas (T2 ).
L1 y L2 son las proyecciones de L+ (cierre del conjunto L) sobre T1 y T2
respectivamente. Aquí es donde radica la dificultad del algoritmo, ya que normalmente no tenemos calculado L+ . Por tanto lo que debemos hacer es encontrar todas las posibles dependencias que impliquen únicamente a atributos de
cada esquema y después obtener su recubrimiento no redundante.
Si alguno de los esquemas obtenidos no alcanzan la FNBC volveremos a
descomponerlo hasta que todos los esquemas resultantes cumplan la FNBC.
En la práctica cuando en los esquemas aparecen dependencias de la forma
X → A1 , X → A2 . . . X → An donde X no es clave candidata, se genera una
tabla T1 con los atributos {X, A1 , A2 . . . An } y otra T2 con {T − {A1 , A2 . . . An }}
Para ser realmente formales tenemos que añadir una pequeña sutileza: dado un esquema R que es descompuesto sucesivamente, cumpliendo la propiedad LJ en cada paso, hasta obtener un conjunto de subesquemas R1 , R2 . . . Rn
por aplicación del Teorema 2, dicha descomposición también cumple la propiedad LJ, es decir, si reunimos de nuevo R1 , R2 . . . Rn obtendremos de nuevo
R.
Para no perder de vista nuestro sustancioso ejemplo vamos a ver cómo se
aplica este algoritmo en un caso concreto. Partimos del siguiente esquema:
R(T, L) : T = {Alumno, Asignatura, Profesor, Nota}
L=
Claves Candidatas
=
{Alumno Asignatura → Profesor,
Alumno Asignatura → Nota,
Profesor → Asignatura}
{(Alumno Asignatura), (Alumno Profesor)}
Vemos que la dependencia Profesor → Asignatura no está en FNBC, y la
utilizamos para descomponer, obteniendo:
R1 (T1 , L1 ) :
Clave Candidata
R2 (T2 , L2 ) :
Clave Candidata
T1 =
{Alumno, Profesor, Nota}
L1 = {Alumno Profesor → Nota}
=
{(Alumno Profesor)}
T2 = {Profesor, Asignatura}
L2 = {Profesor → Asignatura, }
=
{(Profesor)}
El proceso es sencillo, pero incluso aquí vemos que el cálculo de L1 no es
tan inmediato, ya que ninguna de las dependencias de L se pueden exigir en
Revisión 26 de abril de 2010
Diseño de bases de datos
R1 pues involucras atributos de R2 y hemos tenido que encontrar una dependencia que se deduce de L (es decir que pertenece a L+ ) y que involucra únicamente a a tributos de T1 , la verdad es que ya sabíamos que (Alumno, Profesor)
era clave candidata en R, luego debería seguir siéndolo en R1 . Es cierto que
en otros casos esto es menos evidente. Como planteamiento práctico una estrategia puede ser: dado el conjunto de atributos Ti buscamos las dependencias
funcionales que existen como si fuera el problema inicial, si ya lo hicimos con
un conjunto de atributos mayor (T ) raro será que no lo consigamos de nuevo.
Si hubiéramos partido del esquema que incluía el Departamento del Profesor, el atributo Departamento quedaría en el esquema R2 junto con Profesor y
Asignatura.
El resultado que hemos obtenido con todas las tablas en FNBC ya lo vimos
anteriormente para mostrar que dicha descomposición no conservaba dependencias. Una vez más el resultado no parece óptimo, la elección última dependerá de otros factores de implementación que no se contemplan en esta
teoría de diseño de bases de datos. Por ejemplo: si la consulta más frecuente es
obtener listados de alumnos asignaturas y notas la descomposición no parece
demasiado adecuada, si el número de actualizaciones de los campos Alumnos
Asignatura Profesor no es muy elevado puede que el esquema original sea la
mejor alternativa, si . . .
Revisión 26 de abril de 2010
Diseño de bases de datos
Anexo I: Cierre de un conjunto de atributos
El siguiente algoritmo, partiendo de un conjunto de DF L, nos permite calcular el conjunto de atributos que depende funcionalmente de uno dado (α).
Dicho conjunto se expresa como α+ .
α+ ⇐ α
while α+ cambie do
for each β → γ in F do
if β ∈ α+ then
α+ ⇐ α+ ∪ γ
end if
end for
end while
Anexo II: Cálculo del cierre de un conjunto de dependencias
Ya hemos definido anteriormente L+ como el conjunto de todas las DF que
se pueden inferir de un conjunto L dado. Existen diversos algoritmos para obtenerlo, pero aquí sólo vamos a mostrar uno sencillo ya que en la práctica no
se suele utilizar. Dado un esquema R(T, L)
for each X ⊆ T do
Calcular X +
for each A ∈ X + do
incluir X → A en L
end for
end for
Revisión 26 de abril de 2010
Diseño de bases de datos
Anexo II: Cálculo del recubrimiento canónico
Dados dos conjuntos de dependencias funcionales L y M , tal que L+ =
M , se dice que L recubre a M y M recubre a L, o que son mutuamente recubrimientos. Se dice que un recubrimiento no es redundante o es un recubrimiento
canónica cuando:
+
Todas las dependencias son de la forma X → A siendo X un conjunto de
atributos y A un único atributo.
No hay atributos extraños. B ∈ X es extraño en la dependencia X → A,
si al sustituir en L la dependencia X → A por (X − B) → A, el cierre no
varía. Es decir:
(L − {X → A}U {(X − B) → A})+ = L+
No hay DFs redundantes. X → A es redundante si al eliminarla del conjunto L se puede seguir infiriendo del resto. Es decir, que no aporta nada
nuevo a L:
(L − {X → A})+ = L+
El algoritmo que nos permite obtener un Recubrimiento canónico se basa
en los siguientes pasos:
1. Para toda dependencia X → Y de L, la sustituimos por X → Ai , siendo
A1 , ..., An el conjunto de atributos Y . Sea L1 el conjunto resultante.
2. Eliminamos atributos extraños. Para toda dependencia X → A ∈ L1 , si
B → X , y Z = X − B, calculamos Z + respecto de L1 .
Si A ∈ Z + , sustituimos X → A por la dependencia Z → A. Sea L2 el
conjunto resultante.
3. Eliminamos dependencias redundantes. Para toda dependencia X →
A ∈ L2 , calculamos X + respecto de L2 − {X → A}, si A ∈ X + , eliminamos X → A.
Sea L3 el conjunto canónico resultante.
Revisión 26 de abril de 2010
Descargar