Bases de Datos multidimensionales para datos educacionales

Anuncio
Bases de Datos multidimensionales para datos
educacionales
Carolina Zambrano Matamala
Gabriel Poblete Cuadra
poblete.cuadra@live.cl
Abstract – La mayoría de los artículos y casos de
estudio de Inteligencia de Negocios (IN) están
relacionados con el impacto o beneficio de aplicar IN
a grandes empresas. Sin embargo, aunque existen
trabajos relacionados de IN hacia contextos
educacionales, la mayoría de estos trabajos sólo se
han concentrado en aplicar Data Mining a las bases
de datos educacionales (EDM), habiendo un claro
sesgo hacia el uso de esta tecnología en otros
contextos. En este trabajo se desarrolló un primer
avance de Base de Datos multidimensional para
datos educacionales de PISA pertenecientes a la
OECD. Los resultados de la implementación
muestran que Chile y Brazil son los países de
Latinoamérica con las mejoras más significativas
entre los años 2000 y 2009, además de existir una
clara relación entre el nivel socioeconómico de los
estudiantes y su rendimiento. Como futuros trabajos
se podría volver a analizar la información con los
resultados del estudio para la versión 2012, los
cuales a la fecha no han sido liberados. Además de
incluir nuevas dimensiones de análisis en el estudio.
Index Terms - Inteligencia de Negocios –
BDM, PISA, Educación.
I. INTRODUCCIÓN
La Inteligencia de Negocios (IN) es el conjunto de
metodologías, aplicaciones y tecnologías que
permiten entre otras reunir, depurar y transformar
datos de los sistemas transaccionales e
información desestructurada en información
estructurada, para su explotación directa o para su
análisis [1]. En general, la mayoría de los
artículos y casos de estudio de IN están
relacionados con el impacto o beneficio de aplicar
ésta a grandes empresas [2].
Si bien, las técnicas y tecnologías de IN nacieron
para ayudar a los analistas a descubrir la
información
oculta
en
sus
sistemas
transaccionales, esto no significa que la tecnología
no pueda ser aplicada a otros contextos, como por
ejemplo el educacional. En ese sentido, existen
artículos relacionados de IN hacia contextos
educacionales. Sin embargo, la mayoría de estos
Escuela de Ingeniería
Universidad Católica del Norte
Coquimbo,Chile.
czambrano@ucn.cl
artículos sólo se han concentrado en aplicar Data
Mining o EDM (Educational Data Mining) que es
sólo una de las técnicas de IN disponibles [3,14].
Alternativamente a los EDM, el uso de base de
datos multidimensionales (BDM) podría ofrecer
importantes oportunidades de aplicación en el
ámbito educacional. Una BDM es un repositorio
de datos que proporciona un entorno integrado
para consultas de soporte a las decisiones que
requieren de agregaciones, y de enormes
cantidades de datos históricos. Las BDM son
Data Warehouse relacionales en los que la
información se puede organizar según el modelo
estrella [4].
Para probar el uso de BDM en educación, en este
trabajo se desarrolló una base de datos
multidimensional para analizar los datos
educacionales de PISA [5]. Ésta es una prueba
internacional realizada por la OECD y dirigido a
estudiantes de 15 años. PISA, es un estudio
comparativo de los sistemas educativos de los
países miembro de la OECD. El estudio, mide si
los estudiantes tienen la capacidad de reproducir
lo que han aprendido, de transferir sus
conocimientos y aplicarlos en nuevos contextos
académicos y no académicos. Además busca
identificar si ellos son capaces de analizar, razonar
y comunicar sus ideas efectivamente [5].
La prueba PISA se realiza cada tres años, y en
cada ciclo se enfatiza uno de los tres dominios de
evaluación (Lectura, Matemáticas y Ciencias),
mientras que los otros dos son evaluados con
menor profundidad. En el 2000 el principal
dominio fue Lectura, en el 2003 Matemáticas, en
el 2006 Ciencias y en el 2009 se regresa a Lectura,
y así sucesivamente.
A continuación el artículo está dividido en cuatro
secciones. La primera sección define IN, su
arquitectura y describe el modelo lógico y
conceptual, así como también los datos para el
desarrollo de la BDM. La segunda sección
presenta la metodología usada. La tercera sección
presenta los principales resultados del estudio. Por
último se establecen las principales conclusiones y
los trabajos futuros.
II. MARCO TEÓRICO
A. Inteligencia de Negocios
También conocida como Inteligencia Empresarial
o por sus siglas en ingles BI (Business
Intelligence), se define como el conjunto de
tecnologías, aplicaciones y prácticas para la
recolección, integración, análisis y presentación
de la información empresarial [6]. La Figura 1
muestra una arquitectura general de IN y sus
componentes de acuerdo a [1]. Los componentes
son: Sistemas fuentes, ETL (Extraction,
Transformation
and
Load),
Estructuras
multidimensionales y de Análisis, OLAP, Data
Mining.
de los datos operativos de la empresa. Sin
embargo, el desarrollo de un Data Warehouse
puede ser una tarea compleja y costosa. Es por
ello que se puede implementar un Data
Warehouse, construyendo Data Marts que son
pequeños Data Warehouse orientados a áreas
específicas de la empresa [7,8,13]. Finalmente una
base de datos multidimensional es un repositorio
de datos que proporciona un entorno integrado
para consultas de soporte a las decisiones que
requieren de agregaciones, y de enormes
cantidades de datos históricos. La Figura 2
muestra el ámbito de aplicación de los conceptos
definidos anteriormente.
BDM
DW
DM
Figura 2 – Ámbito de aplicación de DW, DM y
BDM
DW
ERP
ETL
Archivos
DM
OLAP
DATA
MINING
BDM
Figura 1 – Arquitectura General de Inteligencia de
Negocios
La IN puede ser descrita como un proceso que
comienza en los sistemas fuentes de información.
Éstos básicamente corresponden a los datos de los
sistemas operacionales o transaccionales, y que
incluyen aplicaciones desarrolladas a medida tales
como ERP (Enterprise Resource Planning), CRM
y otros. Luego de haber identificado las fuentes de
información, el segundo componente corresponde
al proceso de ETL (Extraction , Transformation
and Load), que permite mover los datos desde
múltiples fuentes, reformatearlos, limpiarlos, y
cargarlos en otras bases de datos, tales como DataMart o Data Warehouse. Estas base de datos son
usadas para el análisis [7].
Como tercer componente, sigue la creación de las
estructuras multidimensionales en las que
podemos encontrar Data Warehouse, Data Marts y
BDM. Un Data Warehouse es una base de datos
que centraliza todos los datos de la empresa
creada para soportar las aplicaciones de toma de
decisiones [7]. Esta base de datos se carga a partir
Por último, existen distintas tecnologías que nos
permiten analizar la información que reside en un
Data Warehouse, pero la más extendida es el
OLAP.
Los usuarios necesitan analizar información a
distintos niveles de agregación y sobre múltiples
dimensiones. Por ejemplo, ventas de productos
por zona de ventas, por tiempo, por clientes o tipo
de cliente y por región geográfica. Los usuarios
pueden hacer este análisis al máximo nivel de
agregación o al máximo nivel de detalle. OLAP
provee de estas funcionalidades y algunas más,
con la flexibilidad necesaria para descubrir las
relaciones y las tendencias que otras herramientas
menos flexibles no pueden aportar. A estos tipos
de análisis se les llama multidimensionales,
porque facilitan el estudio de un hecho desde
distintas perspectivas o dimensiones [9].
Finalmente otra herramienta de análisis es Data
Mining o minería de datos. Data Mining es el
proceso de analizar de manera "semi-automática"
grandes bases de datos para buscar patrones útiles.
Similar al descubrimiento de conocimiento en
inteligencia artificial. En otras palabras, la minería
de datos encuentra reglas y patrones [15].
La tecnología Data Mining trata con volúmenes de
datos almacenados principalmente en disco. Es
semi-automática porque requiere de intervención
manual, un pre-proceso
proceso (qué patrón busca
buscar) y un
post-proceso
proceso
(encontrar
nuevos
patrones
novedosos).
B. Modelo Multidimensional Conceptual CMDM
Existen variadas metodologías [13] y modelos
conceptuales para modelar
lar una BDM [8,10].
Para realizar el modelado multidimensional se
escogió el modelo CMDM (Conceptual
MultiDimensional Model) por su simplicidad.
simplicidad
Éste presenta tres estructuras básicas: niveles,
dimensiones y relaciones multidimensionales.
Los niveles representan un conjunto de objetos
que son del mismo tipo. Para representar un nivel
el modelo utiliza un rectángulo que contiene el
nombre y la estructura del tipo de ese nivel. Los
niveles se organizan en jerarquías
arquías y cada jerarquía
está compuesta por uno o varios niveles. En cada
jerarquía se tiene una relación 1--n entre objetos de
nivel superior e inferior [8]. En la Figura 3 se
muestra un ejemplo de un nivel en el modelo
CMDM.
que se pueden construir a partir de los niveles de
un conjunto dado de dimensiones.
Por lo tanto, el esquema de una relación
dimensional está dado por un grafo en forma de
estrella. El nodo central es de forma oval y tiene el
nombre de la relación dimensional
imensional y los nodos
“satélite” son rectangulares y tienen el nombre de
cada una de las dimensiones que participan de la
relación [8]. En la Figura 5 se muestra un ejemplo
del modelo CMDM.
Figura 5 - Ejemplo
lo del modelo CMDM
C.. Modelo Multidimensional Lógico Estrella
Vendedor
Nombre: String
Apellido: String
Cedula: String
Figura 3 - Ejemplo de Nivel en CMDM
Las dimensiones están determinadas por una
jerarquía de niveles. En el modelo una dimensión
se representa por un rectángulo dentro del cual
aparece un nombre para la dimensión y un grafo
dirigido en donde los nodos son los niveles que
participan de esa dimensión [8].. En la Figura 4 se
muestra unn ejemplo de dimensión en el modelo
CMDM.
Geografía
Región
Ciudad
Figura 4 - Ejemplo de Dimensión en CMDM
Una relación dimensional representa un conjunto
de cubos, tomado del conjunto de todos los cubos
El esquema estrella consiste en una o más tablas
centrales denominadas tablas de hechos rodeadas
por una serie de tablas de dimensiones que forman
una especie de “estrella”. Cada tabla de hecho
corresponde con cada hecho definido en el
modelo conceptual así como cada tabla de
dimensión se corresponde con cada dimensión
definida. La tabla de hechos representa una
relación “muchos a muchos” entre todas las tablas
de dimensiones que relaciona. Sin embargo,
representa una relación “muchos a uno” con cada
tabla de dimensión por separado. Por
Po lo tanto, la
clave primaria de la tabla de hechos está
compuesta por las claves de las tablas de
dimensiones con las que se relaciona [7].
En algunas ocasiones puede suceder que la clave
primaria compuesta descrita anteriormente no sea
suficiente para identificar a las instancias de la
tablaa de hecho. En estos casos se introduce una
componente más en la clave primaria de la tabla
de hechos según el dominio que se modele para
identificar dichas instancias.
Por otro lado el esquema estrella utiliza la
desnormalización para definir las tablas de hechos
y de dimensiones por dos razones fundamentales.
fundamentales
La primera se debe a que es mucho más intuitivo
para el análisis multidimensional al estar muy
próximo al proceso cognitivo seguido al llevar a
cabo este tipo de análisis: hechos y dimensiones.
dimensiones
La segunda razón es porque al existir un número
mínimo de relaciones entre tablas, la recuperación
de los datos es más rápida, más aun debido al gran
volumen de datos manejados por las aplicaciones
OLAP. En la Figura 6 se muestra un ejemplo del
esquema estrella [7].
Figura 6 - Ejemplo de Esquema Estrella
Por otro lado, se puede observar en la Figura 6
que en el esquema estrella no se soporta
explícitamente la definición de jerarquías de
clasificación de los elementos de dimensión. Sin
embargo, las jerarquías son expresadas
expresa
en la
implementación de dicho esquema a través de los
denominados atributos de nivel definidos en cada
una de las dimensiones. Este atributo contendrá
números arbitrarios que identificarán
identificar a cada nivel
de la jerarquía [7].
D. Análisis de los datos de PISA.
El siguiente apartado
ado tiene como objetivo
comprender la naturaleza de los datos para poder
definir los indicadores dentro del esquema
conceptual multidimensional.
El proceso de análisis de los datos comprende una
primera parte, que es la recolección de los
distintos manuales
es de las bases de datos de la
prueba PISA. Estos documentos se encuentran en
la página oficial de la OECD y se encuentran bajo
el nombre de Manual for the PISA database [5].
Cada uno de estos documentos proporciona toda
la información relacionada con las bases de datos
para cada una de las versiones del estudio.
estud
En
ellos se puede destacar: la estructura e
información disponible del estudio, la estructura
de los cuestionarios, los estimadores de
rendimiento y los índices derivados.
La segunda parte del análisis de los datos
comprendió la comprensión de la estructura de los
mismos. Cada versión del estudio de PISA consta
de una tabla de 400 a 450 atributos por alumno.
Éstos se dividen en cuatro categorías principales:
atributos de identificación del alumno, atributos
de los cuestionarios,, atributos de los índices
calculados y atributos de estimadores de
rendimiento. Los atributos de identificación
permiten individualizar de manera única a un
alumno dentro del estudio. La identificación de un
alumno del estudio consiste básicamente de tres
atributos que juntos forman de manera única un
identificador para cada alumno.
alumno
Los atributos de los cuestionarios contienen las
respuestas de los alumnos a cada una de las
preguntas de los distintos cuestionarios. Los
nombres que son usados para identificar estos
atributos
butos en la base de datos internacional están
directamente relacionados con la versión
internacional de los cuestionarios. Cada nombre
de atributo consiste de siete caracteres.
calculados son
Los atributos de los índices calculados,
índices calculados a partir de las
l respuestas de los
alumnos en los cuestionarios. La nomenclatura
que utilizan estos atributos para ser identificados
dentro del estudio es solamente una abreviación
del significado del índice. Por ejemplo, HISEI
corresponde a Highest International SocioSocio
Economic Index. Para este estudio solamente
fueron seleccionados dos índices calculados. Los
índices fueron HISEI que corresponde al mayor
índice socioeconómico de los padres (calculado a
partir de las posesiones e ingresos estimados de
los padres) y HISCED que corresponde a Highest
International Standard Classification of Education
que corresponde al mayor grado de educación
alcanzado por los padres del alumno.
alumno Estos
índices, fueron seleccionados debido a que están
presentes en todas las versiones del estudio y
además por
or mantener su forma de cálculo.
El estudio proporciona un estimador de
rendimiento conocido como valores plausibles que
permiten determinar estadísticas de rendimiento a
nivel de población. Los valores plausibles fueron
desarrollados para el análisis de los datos de la
NAEP de 1983-1984
1984 (Evaluación Nacional del
Progreso Educativo), por Mislevy, Sheehan,
Beaton y Johnson [11],, basado en la teoría de la
imputación de valores ausentes o perdidos de
Rubin.. Los valores plausibles se utilizaron en
todos los estudios posteriores NAEP, TIMSS y
posteriormente PISA.
le de describir los valores
La manera más simple
plausibles, es decir, que éstos sean una
representación de la gama de capacidades de un
alumno que pueden suponerse razonablemente. En
lugar de estimar directamente la capacidad de
un alumno, se estima una distribución de
probabilidad para .. Es decir, en lugar de obtener
una estimación puntual para de un alumno,
alumno un
abanico de valores posibles para la magnitud de
un alumno,, con una probabilidad asociada para
cada uno es estimado. Los valores plausibles son
valores aleatorios
orios de esta distribución de para un
alumno [5].
Por ultimo si es el estadístico poblacional y el
estadístico de interés calculado sobre un valor
plausible, entonces:
∗ ∑
. (1)
Siendo M el número de valores plausibles.
Para este estudio se utilizaron los valores
plausibles para estimar el rendimiento
rendimi
a nivel
poblacional de los alumnos por país.
III. METODOLOGÍA DE DISEÑO
El proceso de desarrollo de la implementación
estuvo determinado por el desarrollo iterativo de
cubos. Éste tuvo como propósito crear cada vez
una versión más completa de la implementación.
El primer cubo tuvo como objetivo probar el
rendimiento de la herramienta SQL Server 2008 y
sus características de diseño de cubos, medidas,
medidas calculadas, dimensiones entre otros. El
segundo cubo tuvo como objetivo aumentar la
funcionalidad del mismo,, agregando una nueva
dimensión y medida. También buscaba analizar la
influencia de las características socioeconómicas
en el desempeño de los alumnos. Esto a través de
la inclusión
ión de una dimensión con estos datos. Por
último, el tercer cubo tuvo
uvo como objetivo
determinar la relevancia de la inclusión de la
dimensión, tiempo dentro del análisis de los datos,
así como el nivel de escolaridad alcanzado por los
padres.
El diseño de cada cubo estuvo definido por una
metodología en común. Ésta permitió definir los
procedimientos para alcanzar nuestros objetivos.
Cabe destacar que existen muchas metodologías
paraa el diseño de un Data Warehouse [13] sin
embargo, este trabajo no tiene como objetivo
demostrar el uso de una de ellas en el ámbito de
datos educacionales.
A continuación se describen cada uno de los
procesos necesarios para implementar una Base de
Datos Multidimensional [12].
[12]
Proceso de Modelado Conceptual: Este proceso
permitió capturar los requerimientos de
información necesarios para poder generar los
indicadores de gestión. El esquema resultante, que
contempló las dimensiones, medidas y relaciones
multidimensionales fue independiente del motor
utilizado para generar el cubo resultante.
Proceso de Modelado Lógico y Físico: Este
proceso tuvo como entrada un esquema
conceptual
multidimensional y generó un
esquema lógico y físico.. L
La principal dificultad de
este proceso radicó en generar un modelo lógico
que satisficiera no sólo
lo los requerimientos
funcionales de información,
información sino también las
restricciones.
Proceso de ETL: Este proceso considerado uno de
los más largos dentro del desarrollo, constó
básicamente de extraer los datos desde los
sistemass fuentes, transformarlos y posteriormente
cargarlos en la Base de Datos Multidimensional.
Proceso de Análisis
isis ROLAP: Proceso mediante el
cual los usuarios exploraron
explora
la información
mediante las distintas operaciones ROLAP.
IV. RESULTADOS
Como primera etapa del proceso de desarrollo se
diseñó el esquema conceptual el cual presentó
present las
dimensiones,
medidas
y
relaciones
multidimensionales
es como se muestra en la Figura
7. El modelo conceptual utilizado para desarrollar
el esquema resultante se basó en el modelo
CMDM de Carpani [8].
Figura 7 - Esquema de la implementación
El esquema tuvo seis dimensiones, que fueron las
diferentes perspectivas desde la cuales se analizó
la información:
•
•
•
•
•
•
Alumno: Contuvo los datos de los
alumnos como lo son año de nacimiento,
sexo, entre otros datos.
País: Contempló los países de los cuales
provienen los alumnos.
Tipo de Prueba: Describió
Describ las pruebas
que rinden los alumnos.
Socioeconómica: Describió
Describ
el nivel
socioeconómico al cual un alumno
pertenecía.
Tiempo: Informaba de las fechas de las
pruebas.
Padres:
Esta
dimensión
contuvo
información acerca de los niveles de
escolaridad alcanzados por los padres de
los alumnos que rinden las pruebas.
Por otro lado las medidas resultantes como
cantidad de alumnos y promedio pueden agregarse
o desagregarse a través
avés de las dimensiones.
Luego de haber diseñado el esquema conceptual
multidimensional para la implementación, la
siguiente etapa dentro del proceso de desarrollo
fue elaborar el diseño del esquema lógico de la
implementación. Para ello se utilizó
utiliz el esquema en
estrella de forma de simplificar las uniones entre
las dimensiones y la tabla de hecho. Cabe destacar
que el esquema, correspondió
correspond
a uno
desnormalizado. La Figura 8 ilustra el esquema
multidimensional lógico de la implementación.
implementación
La última etapa dentro del proceso de desarrollo
fue la exploración de la información mediante las
distintas operaciones ROLAP. En esta etapa,
etapa de
forma casi intuitiva exploro
explor la información
buscando tendencias y patrones que resultaran
resulta
de
interés.
Figura 9 - Etapas del proceso ETL
A continuación se muestran una serie de reportes
generados a través de la implementación.
El Gráfico 1 muestra la evolución de los puntajes
promedios para los países participantes de
Latinoamérica desde el año 2000 al 2009. La
tendencia muestra un crecimiento sostenido en
Chile y Brasil logrando una mejora por sobre los
30 puntos cada uno.
Gráfico 1 - Puntajes Promedios Latinoamerica 2000-2009
2000
El Gráfico 2 muestra los puntajes promedios
agrupados por nivel socioeconómico en Chile
desde el año 2000 al 2009.
2009 Existe una diferencia
de más de 100 puntos entre los niveles
socioeconómicos más bajos y los más altos.
Figura 8 - Esquema Lógico de la implementación
Dentro de la etapa del proceso de ETL, la
implementación consideró los siguientes pasos
mostrados en la Figura 9:
Gráfico 2 - Puntajes Promedios por Nivel Socioeconómico
El Gráfico 3 muestra los puntajes promedios
agrupados por el nivel de escolaridad
olaridad alcanzado
por los padres de los alumnos. Los niveles son:
• Nivel 0: Sin Educación..
• Nivel 1: Primaria.
• Nivel 2: Primer ciclo de Secundaria.
• Nivel 3: Secundaria Humanista.
• Nivel 4: Secundaria Nivel Técnico.
• Nivel 5: Pregrado.
• Nivel 6: Postgrado.
Gráfico 4 - Puntajes Promedios por Prueba
El Gráfico 5 muestra la evolucion de los puntajes
promedios para la prueba de lenguaje por género
g
entre los años 2000 y 2009 en Chile. Las mujeres
mostraron una clara tendencia en alza en esta
prueba, mientras que los hombres matuvieron sus
resultados entre el 2006 y el 2009.
Gráfico 5 - Puntajes Promedios de Lenguaje por Género
G
Gráfico 3 - Puntajes Promedios por Nivel de Escolaridad de los
Padres
El Gráfico 4 muestra la evolución de los puntajes
promedios de las distintas pruebas desde el año
2000 al 2009 en Chile. Como se observa la prueba
de lenguaje ha sido aquella que presenta el mejor
progreso con una diferencia de 60 puntos entre el
2000 y el 2009, seguida
da de ciencias con una
mejora de 30 puntos.
El Gráfico 6 muestra la evolucion de los puntajes
promedios para la prueba de ciencias por género
g
entre los años 2000 y 2009 en Chile. Tanto
mujeres como hombres mostraron una tendencia
positiva. Sin embargo, loss hombres en promedio
obtuvieron mejores resultados en esta prueba.
Gráfico 6 - Puntajes Promedios en Ciencias por Género
G
El Gráfico 7 muestra la evolución
evoluci de los puntajes
promedios para la prueba de matem
matemáticas por
género
nero entre los años 2000 y 2009 en Chile. En
esta prueba los puntajes de los hombres presentó
una clara tendencia positiva,, mientras que las
mujeres tienen un comportamiento más
m anómalo.
Gráfico 9 - Nivel de Escolaridad de los Padres en
los países latinoamericanos
CONCLUSIONES
Gráfico 7 - Puntajes Promedios en Matemáticas por Genero
El Gráfico 8 muestra los puntajes promedios de
Chile y algunos países miembros de la OECD.
Como se observa algunos países miembros de la
OECD tuvieron una clara tendencia a la baja
baja.
Mientras que otros mantuvieron niveles de
rendimiento. Es interesante observar que Chile se
encontraba a 30 puntos de los países miembros de
la OECD, siendo uno de los países con los
mejores progresos académicos.
En el artículo, se ha presentado
resentado el diseño inicial e
implementación de una base de datos
multidimensional para datos educacionales con el
objetivo de mostrar la utilidad de la técnica de
bases de datos multidimensionales.
El haber aplicado BDM a los datos educacionales
de PISA, dio la posibilidad de buscar los patrones
y tendencias de mayor interés, y de cruzar estas
tendencias con las variables más relevantes (como
sexo, grupo socioeconómico, nivel educacional de
los padres, etc). Para lo cual fue necesario analizar
previamente la información que entrega la OECD
a través de los resultados de la prueba PISA.
Los resultados de la implementación mostraron
que Chile fue el país con los mejores puntajes
promedios de Latinoamérica, y que junto con
Brasil lograron las mejoras más significativas
entre los años 2000 y 2009.
Gráfico 8 - Chile VS Países OECD
El Gráficoo 9 muestra el nivel de escolaridad
escolari
de los
padres para los países de Latinoamérica entre el
año 2000 y 2009. Se observa que Chile junto con
Uruguay muestran los niveles de escolaridad más
altos.
También se mostró una relación directa entre el
nivel socioeconómico de los alumnos y su puntaje
alcanzado. Esto es, a medida que aumentó
aument el nivel
socioeconómico del alumno también lo hizo su
puntaje promedio. Una tendencia que existe en
todos los países de Latinoamérica. Por otro lado
los resultados mostraron que algunos países
desarrollados
dos han paulatinamente disminuido sus
puntajes promedios en las diferentes pruebas.
pruebas A
diferencia de Chile que ha significativamente
mejorado sus puntajes.
Un punto clave dentro del proceso de desarrollo e
implementación fue el análisis de los datos
proporcionados por el estudio de PISA, que
permitió la generación de aquellas medidas de
mayor interés. Cabe destacar que en esta etapa
también se descartaron otras posibles medidas de
interés por no tener la continuidad necesaria de
datos dentro de todas las versiones
versi
del estudio.
El desarrollo iterativo permitió entre otras cosas ir
ajustando el proceso de desarrollo a las
capacidades técnicas operativas a las cuales se
estaba sujeto. Por otro lado, permitió también
generar una retroalimentación de la información
que se iba generando dando pautas, de cuáles eran
los tipos de datos que podían aportar más al
análisis de la información y, finalmente, ir
desarrollando y perfeccionando los esquemas
multidimensionales lógico y conceptuales.
Además, la reportabilidad generada superó las
expectativas. Eso se debió principalmente a la
incorporación de la dimensión tiempo que
permitió darle toda una nueva arista o perspectiva
a la información disponible. Si bien, el estudio se
centró en el análisis de la información de Chile,
los esquemas lógicos y conceptuales son
aplicables a cualquier país o región del estudio.
A la fecha las bases de datos para el estudio
correspondiente al año 2012 todavía no habían
sido liberadas para su uso, por lo que podría ser
interesante volver a analizar la información con
otro año más de estudio. Además de mejorar la
metodología de diseño aplicada usando alguna de
las metodologías propuestas para el diseño de data
warehouse.
[5]
OECD, PISA Data Analysis Manual. pp.
478, 2009.
[6]
H. P. Luhn, “A Business Intelligence
System,” IBM Journal of Research and
Development, vol. 2, no. 4, pp. 314–319,
Oct. 1958.
[7]
R. Kimball and M. Ross, The Data
Warehouse Toolkit. pp. 449, 1998.
[8]
F. Carpani, “CMDM : Un Modelo
Conceptual para la Especificación de
Bases,” 2000.
[9]
S. Chaudhuri and D. Umeshwar, “An
overview of data warehousing and OLAP
technology,” vol. 26, no. 1. pp. 65–74,
1997.
[10]
J. C. Trujilo, “El modelo GOLD: modelo
conceptual orientado a objetos para el
diseño de aplicaciones OLAP,” 2001.
[11]
R. Carstens and D. Hastedt, “The effect of
not using plausible values when they
should be : An illustration using TIMSS
2007 grade 8 mathematics data.” pp. 12,
2010.
[12]
C. Zambrano, D. Rojas, K. Carvajal, and
G. Acuña, “Análisis de rendimiento
académico estudiantil usando data
warehouse y redes neuronales,” Revista
chilena de Ingenieria, vol. 19, no. 3, pp.
369–381, 2011.
[13]
A. Cravero and S. Sepúlveda, "A
chronological study of paradigms for
datawarehouse design". INGENIERÍA E
INVESTIGACIÓN VOL. 32 No. 2, pp.
58-62, 2012.
[14]
M. A. Pinninghoff, P. Salcedo and R.
Contreras, "Neural Networks to Predict
Schooling
Failure/Sucess".
Lecture
Notes Computer Science. Vol. 4528.
2007.
[15]
A.Berson, S J. Smith "Data Warehousing,
Data Mining, and Olap" McGrawHill.1997.
REFERENCIAS
[1]
S. Chaudhuri, U. Dayal, and V.
Narasayya, “An overview of business
intelligence
technology,”
Communications of the ACM, vol. 54, no.
8, pp. 88–98, Aug. 2011.
[2]
L. Calzada and J. L. Abreu, “El impacto
de las herramientas de inteligencia de
negocios en la toma de decisiones de los
ejecutivos,” International Journal Of Good
Conscience, vol. 4, no. 2, pp. 16–52,
2009.
[3]
R. Baker and K. Yacef, “The State
Educational Data Mining in 2009 :
Review and Future Visions,” Journal
Educational Data Mining, vol. 1, no.
pp. 3–17, 2009.
[4]
E. Baralis, S. Paraboschi, and E.
Teniente, “Materialized View Selection in
a Multidimensional Database,” VLDB,
vol. 97, pp. 156–165, 1997.
of
A
of
1,
Descargar