06 - Arrays y matrices Diego Andrés Alvarez Marín Profesor Asociado Universidad Nacional de Colombia Sede Manizales 1 Temario Declaración de arrays Arrays de uniones Inicialización de arrays Arrays de estructuras Acceso a los elementos Ordenamiento de arrays del array (burbuja, quicksort) Arrays multidimensionales Agotando la memoria de pila Cadenas de texto Arrays como parámetros de funciones Arrays de cadenas 2 Declaración de arrays Se debe especificar el tipo y el número de elementos del array. int mi_array[10]; El C99 permite declarar el tamaño de un array con una variable, no con una constante. Dicho array solo existe en el bloque en el que se definió (variable local): int n = 10; int mi_array[n]; 3 Declaración de arrays globales Tenga en cuenta que una declaración como: const int N = 5; int a[N]; Esto no funciona, produce error de compilación tratando de crear a[] como una variable global no funciona. Esto sucede ya que “const” significa “solo lectura”. El valor de un objeto “const” no es necesariamente constante (si lo es en C++). En este caso: #define N 5 int a[N]; Esta es la forma correcta de declarar el array global 4 Inicialización de arrays int x[5] = { 0, 1, 2, 3, 4 }; int x[5] = { 0, 1, 2 }; /* esto es x[0]=x[3]=x[4]=0, x[1]=1, x[2]=2 */ int x[5] = { 0 }; /* inicializa todo el array a 0 */ El C99 permite: int x[5] = { [2] 5, [4] 9 }; int x[5] = { [2] = 5, [4] = 9 }; lo cual es equivalente a: int x[5] = { 0, 0, 5, 0, 9 }; 5 Inicialización de arrays Existe una GNU extension que permite hacer lo siguiente: int x[100] = { [0 ... 9] = 1, [10 ... 98] = 2, 3 }; En este caso los elementos x[0] a x[9] valen 1, x[10] a x[98] valen 2 y x[99] vale 3. Note que deben haber un espacio antes y después de los "..." Si usted inicializa cada elemento del array, no es necesario especificar su tamaño: int x[] = { 0, 1, 2, 3, 4 }; int x[] = { 0, 1, 2, [99] = 99 }; // tamaño 5 // tamaño 100 6 Acceso a los elementos del array A[i] designa al elemento i+1 del array A Se especifica el nombre y el número del elemento: x[1] = 5; // asigna al segundo elemento un 5 Con estructuras: struct arraypunto { int x, y; }; struct arraypunto punto[2] = { {4, 5}, {8, 9} }; punto[0].x = 3; 7 Verificación de límites (array bound checking) C no provee un método para verificar los límites de los arreglos durante su uso. La bandera de compilación -O2 (menos o mayúscula 2) puede ayudar en algo, aunque no capturaría errores en tiempo de ejecución. 8 Compound literals (GNU C extension) http://gcc.gnu.org/onlinedocs/gcc/Compound-Literals.html Note que p2 no se inicializó; en la línea 10 se está separando y a la vez asignando el espacio de memoria para p2. Esta asignación sólo es válida en el bloque { } en el cual se utilizó el compound literal. Tiene que ser (int []); si usted pone (int *) el código falla. sizeof(p2) = 4 bytes ya que se ejecutó el programa en un sistema operativo de 32 bits; si hubiera sido un sistema operativo de 64 bits sizeof(p2) = 8 bytes 9 Ejemplo de compound literals para arrays 10 Arrays multidimensionales int m[2][5] = { {1, 2, 3, 4, 5}, {6, 7, 8, 9, 10} }; Se usa así: m[1][3] = 12; printf("%d", m[1][3]); // asignación // referencia En la memoria m[0][2] está seguido por m[0][3], no por m[1][2]. Los elementos en un array multidimensional se guardan fila a fila no columna a columna como lo hace FORTRAN o MATLAB. 11 Disposición de los elementos de una matriz en la memoria Lenguaje C/C++ Fortran/MATLAB 12 Arrays multidimensionales: arrays de dos o más dimensiones int tabla[5][5][20]; float array[5][6][5][6][5]; es un array 3D, que puede almacenar 5*5*20=500 ints es decir 2000 bytes. tabla es un array 5D, que puede almacenar 5*6*5*6*5=4500 floats, es decir 18000 bytes. array 13 Salida: 14 Accediendo a las filas de una matriz M[k] es un puntero que apunta al elemento M[k][0] de la matriz 15 Compound literals para matrices 16 Memoria caché La memoria caché es una memoria utilizada por la CPU para reducir el tiempo promedio de acceso a la memoria RAM. Es una memoria más pequeña, más rápida y más costosa que almacena copias de los datos a los que se acceden más frecuentemente. Cuando el procesador necesita leer o escribir en un lugar de memoria, primero verifica si una copia de los datos está en el caché. Si esto sucede, el procesador inmediatamente lee o escribe al cache, lo cual es mucho más rápido que escribir directamente a la memoria principal. Si estos datos no están, el caché trae los datos de la memoria principal, generalmente reescribiendo aquella información presente en el caché que poco se ha utilizado recientemente. Mientras el procesador ejecuta otras tareas, el cache transfiere los datos entre la memoria principal y el caché en bloques de tamaño constante llamados "líneas del cache" (cache lines). Estas líneas tienen un tamaño de 32, 64 o 128 bytes (lo cual depende de la 17 arquitectura donde se está ejecutando el programa). Array caching Este comportamiento se debe a la cercanía de las referencias. Ver: http://en.wikipedia.org/wi ki/Locality_of_reference Ciclo CON array caching Ciclo SIN array caching 18 Inicialización de cadenas de texto char char char char char color1[26]; color2[26] = {'r', 'o', 'j', 'o', '\0'}; color3[26] = "naranja"; color4[] = {'g', 'r', 'i', 's', '\0'}; color5[] = "verde"; En cada uno de estos casos se incluye el carácter nulo '\0' al final de la cadena, incluso cuando no se especifica explícitamente. 19 Inicialización de cadenas de texto Cuando se crea un matriz de enteros y se declara: int matriz[5][5]={10}; solamente en la posición [0][0] se inicializa con un 10 el resto de posiciones toman el valor de 0. Del mismo modo, al hacer: char color[8] = "AZUL"; en la memoria se asigna: 20 Cadenas de texto Despues de la inicialización, no se puede asignar una nueva cadena al array utilizando el operador de asignación. Por lo tanto, lo siguiente es inválido: char fruta1[20]; char fruta2[26] = "naranja"; // OK fruta1 = fruta2; // Error! fruta1 = "naranja"; // Error! Esta asignación se puede hacer utilizando strcpy(fruta1,fruta2); // Esta en string.h strcpy(fruta1,"naranja"); 21 Un error frecuente tratando de copiar cadenas 22 La forma correcta de copiar cadenas strlen(s) retorna la longitud de la cadena s, sin incluir el caracter final '\0'. Se encuentra en string.h 23 Arrays de cadenas Estas expresiones funcionan porque son constantes cadena; si fueran variables cadena, habría un error. El puntero apunta a la dirección de memoria de las constantes cadena, las cuales residen en el segmento de código. sizeof(cad2) = 12 bytes (32 bits) sizeof(cad2) = 24 bytes (64 bits) 24 25 Arrays de uniones union u { int i; float f; }; union u x[3]; Los tres primeros miembros de x se pueden inicializar como: union u x[3] = { {3}, {4}, {5} }; (los brackets internos son opcionales) Los elementos se acceden así: x[0].i = 2; 26 Arrays de estructuras struct punto { int x, y; }; struct punto p[3]; Los elementos se pueden inicializar así: struct punto p[3] = { {2, 3}, {4, 5}, {6, 7} }; Para acceder a los elementos se hace lo siguiente: struct punto p[3]; p[0].x = 2; p[0].y = 3; 27 memcpy() está en string.h Copiando arrays: memcpy() vs for() memcpy() es un poco más veloz (pero no se justifica usarlo, ya que el código con el for es mucho más fácil de leer y menos propenso a equivocaciones) 28 Algoritmos de ordenamiento Son algoritmos que pone elementos de un array en una secuencia dada por una relación de orden. Las relaciones de orden más usadas son el orden numérico y el orden lexicográfico (orden alfabético). Ordenamientos eficientes son importantes para optimizar el uso de otros algoritmos (como los de búsqueda y fusión) que requieren listas ordenadas para una ejecución rápida. También es útil para poner datos en forma canónica y para generar resultados legibles por humanos. https://en.wikipedia.org/wiki/Sorting_algorithm 29 Algoritmo burbuja (bubblesort) Funciona revisando cada elemento de la lista que va a ser ordenada con el siguiente, intercambiándolos de posición si están en el orden equivocado. Es necesario revisar varias veces toda la lista hasta que no se necesiten más intercambios, lo cual significa que la lista está ordenada. Este algoritmo obtiene su nombre de la forma con la que suben por la lista los elementos durante los intercambios, como si fueran pequeñas "burbujas". Es muy ineficiente, por lo que es recomendable utilizar otros algoritmos de ordenamiento. http://en.wikipedia.org/wiki/Bubble_sort 30 Algoritmo burbuja 31 Algoritmo quicksort Creado por Charles Hoare, basado en la técnica de divide y vencerás. Permite en promedio ordenar n elementos en un tiempo proporcional a n log2 n. El algoritmo trabaja de la siguiente forma: ● Elegir un elemento de la lista de elementos a ordenar, al que llamaremos pivote. ● Resituar los demás elementos de la lista a cada lado del pivote, de manera que a un lado queden todos los menores o iguales que él, y al otro los mayores. En este momento, el pivote ocupa exactamente el lugar que le corresponderá en la lista ordenada. ● La lista queda separada en dos sublistas, una formada por los elementos a la izquierda del pivote, y otra por los elementos a su derecha. ● Repetir este proceso de forma recursiva para cada sublista mientras éstas contengan más de un elemento. ● Una vez terminado este proceso todos los elementos estarán 32 ordenados. Algoritmo quicksort Selección del pivote: La selección del pivote es la parte más crítica para un funcionamiento óptimo del algoritmo. Existen varios métodos para seleccionar el pivote. Uno de los aconsejados es tomar tres elementos de la lista - por ejemplo, el primero, el segundo, y el último - y compararlos, eligiendo el valor de la mediana (el del centro). http://en.wikipedia.org/wiki/Quicksort http://youtu.be/ywWBy6J5gz8 (aprendalo bailando) 33 Algoritmo quicksort El programa: http://programaciondecomputadoresunalmzl.wikispaces.com/file/detail/06_alg_ordenamiento.c 34 35 La función qsort (stdlib.h) #include <stdlib.h> void qsort(void *base, size_t nmemb, size_t size, int(*compar)(const void *, const void *)); Ver: http://www.cplusplus.com/reference/cstdlib/qsort/ 36 Algoritmo de búsqueda binaria El programa: http://programaciondecomputadoresunalmzl.wikispaces.com/file/detail/06_alg_busqueda.c 37 La función bsearch() (stdlib.h) #include <stdlib.h> void *bsearch(const void *key, const void *base, size_t nmemb, size_t size, int (*compar)(const void *, const void *)); Ver: http://www.cplusplus.com/reference/cstdlib/bsearch/ 38 Definiendo arrays dinámicos con malloc() y free() x existe en la memoria de pila x existe en la memoria del montón 39 Separando memoria del montón con malloc() y free() Si no se usa free( ), el espacio reservado anteriormente por malloc( ) no será re-utilizable hasta que el programa termine, momento en el cual el sistema libera el espacio automáticamente. Entonces la consecuencia es que el programa ocuparía más espacio en memoria de la que se necesita. Por eso lo más recomendable es siempre liberar el espacio con free( ) cuando ya no se requiera dicha memoria. 40 El poner o no (double *) como casting aquí es opcional Tenga en cuenta que con las direcciones de memoria de los elementos del array: &x[0] == x+0 == x &x[1] == x+1 &x[2] == x+2 &x[N-1] == x+N-1 Por lo tanto: x[0] x[1] x[2] x[N-1] x == == == == *(x+0) *(x+1) *(x+2) *(x+N-1) 41 Acceso a los elementos de la matriz A por medio de aritmética de punteros 42 Error!!! Lo correcto es: *((int *)A + i) El casting se debe hacer porque A es un puntero a un array de punteros, es decir cada elemento de A es del tipo int [4]. La aritmética de punteros solo funciona si A es un puntero int * 43 Tamaño de aquello a lo que apunta el puntero A 44 Agotando la memoria de pila http://compgroups.net/comp.lang.c/probl em-with-big-matrices/713823 45 Agotando la memoria de pila El problema con la matriz anterior es que a pesar que solo ocupa 30.5 Mb y tenemos 4 Gb de RAM, el programa falla por falta de memoria en la pila. Soluciones: ● Declarar la matriz A como static ● Definir la matriz A en la memoria del montón (heap memory) ● Incrementar la memoria de pila 46 Verificando el tamaño de la memoria de pila en Linux Se tienen 8 Mb de pila 47 Verificando el tamaño de la memoria de pila en Windows Se deben utilizar programas como VMMap de Sysinternals para mirar el tamaño de la pila. Ver: http://en.wikipedia.org/wiki/Winternals http://technet.microsoft.com/en-us/sysinternals/bb842062 http://technet.microsoft.com/en-us/sysinternals/dd535533.aspx 48 Solución 1: Declarar la matriz A como static: Al ser A una variable estática esta se crea en el segmento de datos, no el la pila 49 Solución 2: Definir la matriz A en la memoria del montón Esta es mi solución preferida. malloc() siempre separa la memoria de la memoria del montón 50 Solución 3: Incrementar la memoria de pila Es una solución dependiente del sistema operativo, y por lo tanto es mejor evitarla. 51 Cambiando el tamaño de la memoria de pila (GNU/Linux) $ ulimit -a $ ulimit -s 32768 # muestra el tamaño actual de la pila # cambia el tamaño de la pila a 32 Mb 52 Cambiando el tamaño de la memoria de pila (Windows) No existe un comando que haga esto 53 Arrays como parámetros de funciones Estos dos códigos son equivalentes: Aquí se está pasando un puntero al primer elemento en x. Tenga en cuenta que dentro de la función no se puede usar sizeof para determinar el tamaño del array. El sizeof dará el tamaño del puntero a. El dar el tamaño del array en la declaración de la función tampoco sirve. Para pasar un array "por valor", toca meterlo dentro de una estructura. Aunque es mejor pasar un const array para indicar que uno no debe modificar el array. 54 Arrays multidimensionales como parámetros de funciones: standard C89 Modo utilizado con el standard C89: Las siguientes formas de pasar una matriz como parámetro a una función son válidas y equivalentes: la primera 55 Como no hay una forma general óptima de escribir una sola función que acepte ambas matrices la mejor forma de pasar la matriz es pasar un puntero al elemento [0][0], junto con el número de filas y de columnas y hacer la referencia a los elementos "manualmente": Observe que no se necesita para nada el parámetro nfil. Esta función se llamaría usando: 56 Cuando se tiene un array de más de tres dimensiones, únicamente la primera dimensión es opcional. Las otras dimensiones son obligatorias: void mifun(int miarray[][3][4]) { } 57 Arrays multidimensionales como parámetros de funciones: standard C99 Prototipo de n Recuerde que el for(int i=0; ... se activa con el -std=c99 En C99 se pueden pasar las dimensiones del array antes de pasarlo. 58 Funciones que retornan arrays No es la salida esperada No es posible utilizar return para devolver un array que fue creado dentro de la función. Los arrays se tratan como punteros, de modo que al salir de la función, una copia del puntero se transfiere. Al salir de la función, la variable local x es destruida, por lo que el puntero apunta a un pedazo de memoria ilegal. Si se quiere retornar dicho array, este se debe crear utilizando malloc(). Casting de array a matriz Material basado en: Wikipedia http://gcc.gnu.org/onlinedocs/gcc/Variable-Length.html http://rajkishor09.hubpages.com/hub/How-to-work-with-Multidime