Gestión documental a la Fundación OneTwoTree Edison Moreno Capera John Mairon Román Grajales Tutor Metodológico Ingeniero Andrés Mauricio Martínez Hincapié Universidad Católica de Pereira Facultad de Ciencias Básicas e Ingeniería Programa Ingeniería de Sistemas y Telecomunicaciones Pereira 2015 DEDICATORIA Le doy gracias a la vida por permitirme alcanzar el sueño de formarme como persona y como profesional, a mi familia que es mi apoyo y ser el motor para cada acción que realizo, el motivo que hoy me impulsa a alcanzar este logro tan importante de mi vida, a mi compañero de tesis, a mi pareja que me ha apoyado incondicionalmente en el logro de mis metas, a mis amigos que me dieron una voz de aliento, tutores que de una u otra forma se han involucrado conmigo en alcanzar este sueño. Edison Moreno Capera. Le agradezco a Dios por haberme acompañado y guiado a lo largo de mi carrera, por ser mi fortaleza en los momentos de debilidad y por brindarme una vida llena de aprendizajes, experiencias y sobre todo felicidad, le doy gracias a mi hija por ser mi motor de vida. a mis padres y hermanos por apoyarme en todo momento, por los valores que me han inculcado, y por haberme dado la oportunidad de tener una excelente educación en el trascurso de mi vida, sobre todo por ser un excelente ejemplo de vida a seguir. A mi pareja sentimental por ser parte muy importante de mi vida, por haberme apoyada en las buenas y en las malas, sobre todo por su paciencia y amor incondicional, a mi compañero de tesis un excelente amigo por haber tenido la paciencia necesaria y por motivarme a seguir adelante en los momentos de desesperación. John Mairon Román Grajales 3 AGRADECIMIENTO Los autores agradecen a: Universidad Católica de Pereira de Risaralda, por ser nuestra universidad, albergarnos por mucho tiempo y hacernos sentir como familia. Ingeniero Andrés Mauricio Martínez Hincapié, por brindarnos el conocimiento y la oportunidad de desarrollar nuestra tesis profesional, por darnos la oportunidad de crecer y aprender cosas nuevas. Agradecemos la confianza, el apoyo, la dedicación y el tiempo. Ingeniero Alonso Toro Lazo, nos brindó apoyo cuando más lo necesitamos, no solamente es un buen profesor y director, si no una excelente persona. Ingeniero Juan Luis Arias Vargas, nos brindo su conocimiento, su apoyo y solución a las dificultades. Arquitecto Armando Sánchez Nieto, al ser la persona encargada de la fundación ONE TWO TREE, puso en manos de nosotros su proyecto y su confianza, el apoyo por cada paso que dimos y la amistad que consolidamos por el transcurso del tiempo. Cada uno de los profesores de la Universidad Católica de Pereira, Por haber compartido con nosotros sus conocimientos y sobre todo su amistad. 4 TABLA DE CONTENIDO Pág. 1. INTRODUCCIÓN ............................................................................................ 14 2. PLANTEAMIENTO DEL PROBLEMA ............................................................. 15 3. JUSTIFICACIÓN ............................................................................................. 17 4. ALCANCES ..................................................................................................... 17 5. SEGMENTO DE CLIENTES ........................................................................... 18 6. VIABILIDAD..................................................................................................... 18 7. CONSECUENCIAS ......................................................................................... 19 8. OBJETIVO....................................................................................................... 20 8.1. OBJETIVO GENERAL ............................................................................. 20 8.2. OBJETIVO ESPECIFICOS ....................................................................... 20 9. MARCO DE REFERENCIA. ............................................................................ 21 9.1. MARCO TEÓRICO ................................................................................... 21 9.1.1. ANTECEDENTES INVESTIGATIVOS ............................................... 21 9.1.2. ASPECTOS GENERALES CRAWLER .............................................. 33 9.2. MARCO CONTEXTUAL. .......................................................................... 36 9.3. MARCO CONCEPTUAL ........................................................................... 39 9.3.1. 9.4. ASPECTOS GENERALES DE LA GESTIÓN DOCUMENTAL .......... 39 METODOLOGÍA ....................................................................................... 47 10. PERSPECTIVA DESDE LA LEY.................................................................. 48 11. RESULTADOS ANEXOS ............................................................................. 52 5 12. ANEXO A: 7 RECOMENDACIONES A TENER EN CUENTA PARA SELECCIONAR UN SOFTWARE DE GESTIÓN DOCUMENTAL ......................... 53 13. ANEXO B: ESPECIFICACIONES E INSTALACION DE LOS SOFTWARE LIBRE DE GESTION DOCUMENTAL ................................................................... 57 14. ANEXO C: Implantación del Gestor documental a la fundación ONE TWO TREE 104 15. CONCLUSIÓN ........................................................................................... 128 16. ANEXO E: Bibliografía ............................................................................... 129 17. ANEXO F: Que es un crawler .................................................................... 129 18. ANEXO G: Funcionalidad de un crawler .................................................... 130 19. ANEXO H: Diseño, desarrollo y pruebas del crawler ................................. 132 20. ANEXO I: Conclusiones ............................................................................. 164 21. ANEXO J: Recomendaciones .................................................................... 165 22. ANEXO K: Bibliografía ............................................................................... 165 6 LISTA DE ILUSTRACIONES Pág. ILUSTRACION 1: Arquitectura OpenKM ............................................................... 59 ILUSTRACION 2: Cambiar puerto ......................................................................... 64 ILUSTRACION 3: Interfaz de usuario de OpenKM ................................................ 65 ILUSTRACION 4: Formulario para crear usuarios ................................................. 66 ILUSTRACION 5: Ingreso usuario chrome ............................................................ 67 ILUSTRACION 6: Ingreso usuario Explorer ........................................................... 67 ILUSTRACION 7: Alfresco arquitectura ................................................................. 69 ILUSTRACION 8: Alfresco basado en java ............................................................ 69 ILUSTRACION 9: Alfresco repositorio ................................................................... 71 ILUSTRACION 10: Acciones Alfresco ................................................................... 72 ILUSTRACION 11: Opciones de configuración...................................................... 75 ILUSTRACION 12: Configuración del puerto tomcat ............................................. 75 ILUSTRACION 13: Interfaz Alfresco ...................................................................... 76 ILUSTRACION 14: Formulario para crear usuarios ............................................... 77 ILUSTRACION 15: Problemas con el cliente ......................................................... 78 ILUSTRACION 16: Nuxeo plataforma.................................................................... 80 ILUSTRACION 17: Nuxeo EMC............................................................................. 80 ILUSTRACION 18: Nuxeo panel de control ........................................................... 87 ILUSTRACION 19: Configuración de inicio ............................................................ 87 ILUSTRACION 20: Asignación IP del servidor....................................................... 88 ILUSTRACION 21: Ingreso al servidor Nuxeo ....................................................... 89 7 ILUSTRACION 22: Interfaz de usuario de Nuxeo .................................................. 89 ILUSTRACION 23: Formulario para crear usuarios ............................................... 90 ILUSTRACION 24: Ingreso usuario chrome .......................................................... 91 ILUSTRACION 25: interfaz de cliente nuxeo ......................................................... 91 ILUSTRACION 26: Ingreso usuario Explorer ......................................................... 92 ILUSTRACION 27: Funcionamiento ORFEO ......................................................... 94 ILUSTRACION 28: Configuración Bios ................................................................. 97 ILUSTRACION 29: Ingreso maquina virtual ........................................................... 97 ILUSTRACION 30: Opciones de ingreso Ubuntu................................................... 98 ILUSTRACION 31: Librería Orfeo .......................................................................... 98 ILUSTRACION 32: IP del servidor ......................................................................... 99 ILUSTRACION 33: Ingreso al servidor Orfeo ........................................................ 99 ILUSTRACION 34: Interfaz de usuario de Orfeo ................................................. 100 ILUSTRACION 35: Formulario para crear usuarios ............................................. 101 ILUSTRACION 36: Permisos de usuario ............................................................. 101 ILUSTRACION 37: Ingreso de cliente Orfeo ........................................................ 102 ILUSTRACION 38: Cambio de clave ................................................................... 102 ILUSTRACION 39: Ingreso usuario chrome ........................................................ 103 ILUSTRACION 40: Ingreso usuario Internet Explorer .......................................... 103 ILUSTRACION 41: Importar carpetas OpenKM ................................................... 104 ILUSTRACION 42: Visualización ......................................................................... 105 ILUSTRACION 43: Carpeta okm:root .................................................................. 105 ILUSTRACION 44: Crear carpeta ........................................................................ 106 8 ILUSTRACION 45: Opción editar carpeta ............................................................ 106 ILUSTRACION 46: Búsqueda básica de carpetas. .............................................. 106 ILUSTRACION 47: Ventana: filtrado por carpeta. ................................................ 107 ILUSTRACION 48: Búsqueda básica de documentos. ........................................ 107 ILUSTRACION 49: Búsqueda de documentos similares. .................................... 108 ILUSTRACION 50: Opción mover documento y/o carpetas. ............................... 108 ILUSTRACION 51: Selección de carpeta a (Mover) ............................................ 109 ILUSTRACION 52: Copiar documentos y/o carpetas. ......................................... 109 ILUSTRACION 53: Seleccionar carpeta destino a copiar .................................... 110 ILUSTRACION 54: Opción Eliminar..................................................................... 110 ILUSTRACION 55: Opción Editar ........................................................................ 111 ILUSTRACION 56: Icono actualizar documentos. ............................................... 111 ILUSTRACION 57: Ventana actualizar documentos. ........................................... 112 ILUSTRACION 58: Icono cancelar edición .......................................................... 112 ILUSTRACION 59: Palabras claves..................................................................... 113 ILUSTRACION 60: Descarga-clic derecho .......................................................... 113 ILUSTRACION 61: Icono de descarga ................................................................ 114 ILUSTRACION 62: Icono de selección ................................................................ 114 ILUSTRACION 63: Documentos personales ....................................................... 115 ILUSTRACION 64: Inserción de notas................................................................. 116 ILUSTRACION 65: Administración de archivos ................................................... 116 ILUSTRACION 66: Selección de usuario ............................................................. 117 ILUSTRACION 67: Selección de usuario ............................................................. 118 9 ILUSTRACION 68: Historial de documentos específicos ..................................... 118 ILUSTRACION 69: búsqueda avanzada .............................................................. 119 ILUSTRACION 70: Registro de actividades ......................................................... 120 ILUSTRACION 71: Funcionar PDF ...................................................................... 120 ILUSTRACION 72: Envió de documentos adjuntos ............................................. 121 ILUSTRACION 73: Ejemplo de documentos encriptados .................................... 122 ILUSTRACION 74: Icono escáner ....................................................................... 122 ILUSTRACION 75: Scan Y Upload ...................................................................... 122 ILUSTRACION 76: Estadísticas........................................................................... 123 ILUSTRACION 77: Estadísticas........................................................................... 124 ILUSTRACION 78: Estadísticas........................................................................... 124 ILUSTRACION 79: Parámetros especiales en la administración de usuarios ..... 125 ILUSTRACION 80: Columnas adicionales ........................................................... 126 ILUSTRACION 81: Elementos configurar para habilitar la pre visualización ...... 127 ILUSTRACION 82: Listado de opciones de configuración ................................... 127 ILUSTRACION 83: Pre visualización de imágenes.............................................. 127 ILUSTRACION 84: Funcionalidad de un crawler ................................................. 131 ILUSTRACION 85: Diagrama de actividades ...................................................... 135 ILUSTRACION 86: Diagrama de clases .............................................................. 136 ILUSTRACION 87: Interfaz crawler ONE TWO TREE ......................................... 136 ILUSTRACION 88: Imágenes Script ONE TWO TREE ....................................... 145 10 LISTA DE TABLAS Pág. TABLA1: Descripción de herramienta Orfeo .......................................................... 28 TABLA2: Gestión documental ................................................................................ 39 TABLA 3: Caso de uso 1 ..................................................................................... 132 TABLA 4: Caso de uso 2 ..................................................................................... 132 TABLA 5: Caso de uso 3 ..................................................................................... 133 TABLA 6: Caso de uso 4 ..................................................................................... 133 TABLA 7: Caso de uso 5 ..................................................................................... 134 TABLA 8: Caso de uso 6 ..................................................................................... 134 TABLA 9: Historial de versiones .......................................................................... 161 TABLA 10: Información del proyecto ................................................................... 161 TABLA 11: Prueba T01 ........................................................................................ 162 TABLA 12: Prueba T02 ........................................................................................ 162 TABLA 13: Prueba T03 ........................................................................................ 163 TABLA 14: Prueba T04 ........................................................................................ 163 TABLA 15: Prueba T05 ........................................................................................ 164 11 Resumen El presente proyecto, surge como trabajo de grado llevando a la práctica un proceso a una implementación de sistema de gestión documental, donde se pretende realizar un estudio de los diferentes sistemas de gestión documental y diseñando un clasificador de información web de la fundación ONE TWO TREE. Las inconsistencias en guardar, analizar y buscar la información, ha generado a la fundación ONE TWO TREE, la idea y la necesidad de realizar un estudio del sistema de gestión documental y de diseñar el clasificador de información web, donde la información para el usuario es importante, esta idea de generar una solución, puede aportar a la ecología y tecnología de la región Risaralda, y de esta manera cada persona tendrá la posibilidad de tener su información sin perdida, ordenada y relevante para cada uno de ellos. En este proceso se tiene el objetivo de Implantar un sistema de gestión documental adaptado a la empresa ONE TWO TREE , incluyendo un clasificador de información web basado en técnicas de exploración Crawler , la cual tiene como actividad estudiar diferentes herramientas de gestión documental, el estudio, diseño e implementación del clasificador. Palabras claves: Crawler, OpenKM, Documental. 12 Alfresco, Orfeo, Nuxeo, Gestión ABSTRACT This project comes as degree work by implementing a process to implement document management system, which aims to carry out a study of the different document management systems and designing classifier web information of the foundation ONE TWO TREE. The inconsistencies in store, analyze and seek information, the foundation has generated TWO ONE TREE, the idea and the need for a study of the system of document management and web design the classified information, where the information is for the user it is important, with this idea is to generate a solution to bring ecology and technology Risaralda region, so each person will have a chance to have their information without loss, orderly and relevant to each of them. This process aims to implement a document management system adapted to the company TWO ONE TREE, including a classifier web based information exploration techniques Crawler. Which it is to study different business document management tools, the study, design and implementation of the classifier. Key words: Crawler, OpenKM, Alfresco, Orfeo, Nuxeo, Document Management. 13 1. INTRODUCCIÓN En el mercado se ofrecen algunos programas de carácter privativo. En este proyecto, se realizara el estudio de los diferentes tipos de software libre, analizando los aspectos de cada software, la instalación de cada uno de ellos, la experiencia y las dificultades de cada uno, se analizara los aspectos del crawler, en la cual se tendrán en cuenta antecedentes, en qué contexto se manejan, y las empresas que manejan software de gestión documental y de crawler. Dentro de los factores que más importancia tiene para su desarrollo y exitoso crecimiento de una empresa y aplicación, es la forma de manejar, manipular y difundir los datos que se maneje dentro de ella. Por eso, es fundamental tener una buena forma de organizarla y de que los directamente interesados puedan acceder a ella de forma rápida, efectivamente y lo más actualizada posible. (Para la cual) Se espera tener un software definido para implantar y conjuntamente diseñar el crawler para dar una solución al almacenamiento y lectura de la información para el proyecto ONE TWO TREE En el desarrollo del trabajo se reflejara la importancia de que no solamente la fundación ONETWO TREE, si no varias organizaciones por ley, requieren de un gestor documental y aportar a la ecología del país. 14 2. PLANTEAMIENTO DEL PROBLEMA El internet y sobre todo las redes sociales ostentan un enorme tráfico de información (Videos, Animaciones, Imágenes, Texto, Sonido, entre otros), que en su mayoría, resulta ser información no deseada o que carece de temas de verdadera relevancia para cada uno de los usuarios de dichas plataformas; lo que conlleva a pérdida de tiempo y distracción innecesarios. Las empresas que manejen grandes volúmenes de datos no son ajenas a esta problemática, así mismo lo es para cada usuario desde su computador o dispositivo móvil, ya que en el preciso momento en el que la información se convierte en el factor principal para cada uno de nosotros o de una organización, es necesario mantener un registro ordenado que permita acceder a dicha información de manera eficiente y rápida. Cuando un usuario logra identificar la información de mayor interés, puede utilizar algunos métodos alternativos para mantener un registro del enlace donde está contenido el tema de interés, como por ejemplo: Botón de favoritos de los navegadores para internet: Esta función permite guardar un enlace con la dirección de internet, información que queda en una carpeta en el ordenador, y donde se corre el riesgo de perderse por causas como la restauración del PC o restauración del historial del explorador y la carpeta que contiene dicha información. En su defecto cuando los enlaces quedan archivados en el PC y enviados a la nube, se corre el riesgo de que la información no haya sido actualizada de forma automática y se pierda el rastro de los enlaces guardados recientemente. La función de favoritos del navegador es muy popular pero no permite ordenar la información de una manera ágil, en la que el usuario pueda visualizar la información de una forma rápida. 15 Un ejemplo de ello sería lo siguiente: La página http://www.ucp.edu.co/ posee una publicación que es de interés, al dar favoritos en la barra del navegador este enlace se guardaría como: http://biblioteca.ucp.edu.co/OJS/index.php/arquetipo/article/view/2203 La cual quedará en la carpeta creada por el usuario llamada: Arquitectura. Si el usuario realiza esta acción de manera frecuente encontrará un número de filas y carpetas donde se mostrará el texto capturado, información que no aporta a la identificación del tema que el usuario ha registrado. Tampoco ofrece una pre visualización que permita recordar la sección de la página que motivó la acción de registro; por lo que el usuario tendrá que realizar una apertura uno a uno de cada enlace para encontrar la información deseada, lo que suele ser bastante engorroso. Muchas veces los enlaces a páginas web son clausurados, eliminados, borrados, jaqueados o las publicaciones son borradas y se pierde el rastro de la información. Adicionalmente esta función, no ofrece la posibilidad de ordenar la información de mayor interés y relevancia para el usuario, a la hora de buscar la información no se encuentra una base de datos para una mejor administración de los datos, no tiene la forma de reconocer, descargar y clasificar el tipo de archivo solicitado por el usuario en dicha página. 16 3. JUSTIFICACIÓN La investigación de dicho planteamiento busca encontrar una herramienta que aporte una mejor experiencia para el usuario de internet y de las redes sociales, al momento de interactuar con los grandes volúmenes de información que en muchas ocasiones genera pérdida de tiempo por su baja calidad de contenido. Evita la tenencia de documentos físicos, y la fácil pérdida de información de mayor interés. La novedad de dicha herramienta simplifica, revisa los tipos de archivos que se encuentren en la página, ya sea una imagen, video, texto, entre otros. Por medio de URL de las páginas que el usuario decida guardar descarga el tipo de archivo y ordena, en lo cual se hace más accesible a los datos de importancia. 4. ALCANCES Los alcances que la investigación tendrá a corto plazo son los de poder brindar una herramienta en la cual las personas u organizaciones interactúen a través de una conciencia global colectiva, que permitirá que la información catalogada garantice una mayor calidad de contenido según preferencias de cada usuario. A mediano plazo los alcances tendrán gran influencia en la parte emocional e intelectual de cada usuario ya que el contenido de la plataforma resaltará la información de mayor relevancia, interés científico, creativo, innovador y actualidad mundial, retroalimentando de una conciencia global colectiva de una forma motivante y positiva, generando un espacio sano de escape, que evite tener contacto con emociones como la frustración, el miedo, el temor, el estrés, desinterés por los valores, que son tan comunes en internet, las redes sociales y otros medios de comunicación. Los alcances a largo plazo son los de consolidar lo que se efectuó en los procesos anteriores y que las personas tengan una solides a la hora de tener su información personal y de importancia con una buena administración de datos. 17 5. SEGMENTO DE CLIENTES Personas de todas las edades y géneros con acceso a internet a través de dispositivos móviles o a través de ordenadores PC; que buscan una herramienta que les permita ordenar, catalogar y compartir la información más relevante de internet o de las redes sociales aportando o reafirmando de alguna manera un conocimiento o perspectiva del mundo en el que vive. 6. VIABILIDAD Entidades como la universidad Católica de Pereira, a través de la facultad de Ciencias Básicas e Ingeniería, con el programa de Ingeniería de Sistemas y Telecomunicaciones, la empresa Inngaia y la ONG OneTwo Tree ,más los acuerdos realizados con los estudiantes de Ingeniería de sistemas Edison Moreno y John Mairon Román son fundamentales para el éxito del proceso, ya que cada una de las partes en alianza ofrece su capacidad técnica, capital humano y capital financiero para el logro de los objetivos propuestos. Se cuenta con una capacidad tecnológica permite poner a disposición el software e informática y de cómputo, que y permite llegar a una gran cantidad de usuarios que están conectados a estas plataformas. Una viabilidad financiera se realizará a través de un desarrollo de ingresos o egresos que permitirá apreciar el desarrollo del software por medio de tabla ingresos o egresos operacionales. El comité evaluador dió a conocer sus opiniones y sugerencias, de viabilidad del proyecto ONE TWO TREE, la cual sugiere limitar el proyecto, se dividió en dos temas particulares. 1. Gestión documental. 2. Crawler (robot navegador) 18 Los estudiantes decidieron incluir los dos temas profundizando en el tema del crawler(robot navegador). 7. CONSECUENCIAS Se da solución a un segmento de la idea aportada por la empresa ONE TWO TREE, se deja una evidencia de los temas, aporta al desarrollo tecnológico y ecológico en la región. El usuario por medio del uso tecnológico (Celulares, computadoras, entre otros) puede optimizar los recursos como el tiempo, espacio, trabajos pesados, entre otros. Con la herramienta, se puede simplificar el modo de almacenamiento y de búsqueda de información que sea importante para dicha persona. Se presentan varios problemas por los derechos de autor y legislación, a la hora de inspeccionar y guardar la información. Para las personas que por condiciones económicas no puedan acceder a las actuales tecnologías, situaciones como la disponibilidad de información, e incluso para la vida laboral, puede verse afectada de manera negativa, alejándolas de un mercado competitivo. 19 8. OBJETIVO 8.1. OBJETIVO GENERAL Implantar un sistema de gestión documental adaptado a la empresa ONE TWO TREE, incluyendo un clasificador de información web basado en técnicas de exploración Crawler. 8.2. OBJETIVO ESPECIFICOS Analizar y determinar los diferentes tipos de software libre para la gestión documental (realizar artículo). Implantar el software dependiendo al análisis del anterior objetivo. Analizar e identificar los diferentes tipos y técnicas que hay de construcción de robots de navegación. Diseñar e implementar un crawler (robot de navegación). Realizar pruebas y ensayos que permitan detectar posibles fallos en el crawler desarrollado. 20 9. 9.1. MARCO DE REFERENCIA. MARCO TEÓRICO 9.1.1. ANTECEDENTES INVESTIGATIVOS 9.1.1.1. ASPECTOS GENERALES DE UN PROGRAMA DE GESTIÓN DOCUMENTAL “Dos instituciones de carácter internacional han contribuido a que profesionales y organismos afronten decididamente los problemas que conlleva la gestión de documentos: la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO) y el Consejo Internacional de Archivos (CIA)” 1 LLANSÓ SANJUAN, Joaquim. Sistemas archivísticos y gestión de documento: ponencia. 14 Congreso Internacional de Archivos (Sevilla: Consejo Internacional de Archivos, 2000); p. 32. La gestión de documentos fue “concebida en los Estados Unidos alrededor de los años 50” 2 DOYLE. Murielle y FRENIERE, André. La preparación de manuales de gestión de documentos para las administraciones públicas de acuerdo con LLANSO SANJUÁN3, Joaquim. Gestión de documentos: definición y análisis de modelos. Bergara: Irargi, fue reconocida de forma oficial en ese país, mediante legislación, a mediados del Siglo XX. Su adopción supuso una auténtica revolución en la teoría y en la práctica archivística, especialmente a partir de la formulación del concepto de ciclo de vida de los documentos, pues se hizo evidente un hilo conductor que mostraba el tránsito de los documentos desde que estos se creaban hasta que debían ser destruidos o conservados permanentemente atendiendo a su valor histórico. 1 LLANSÓ SANJUAN, Joaquim. Sistemas archivísticos y gestión de documentos: ponencia. 14 Congreso Internacional de Archivos (Sevilla: Consejo Internacional de Archivos, 2000); p. 32. 2 DOYLE. Murielle y FRENIERE, André. La preparación de manuales de gestión de documentos para las administraciones públicas. París: UNESCO, 1991. p. 54 3 LLANSO SANJUÁN, Joaquim. Gestión de documentos: definición y análisis de modelos. Bergara: Irargi, 1991. p. 234 21 A partir de la Segunda Guerra Mundial, en Europa y los Estados Unidos de un modo particular se empiezan a plantear problemas relacionados con la inflación de papel en el seno de las administraciones y la búsqueda de la eficacia y la economía en la gestión de los asuntos públicos y en relación con el ciudadano; ante esta situación comienzan a adaptar a su idiosincrasia administrativa particular, las soluciones formuladas y experimentadas en los Estados Unidos. En Colombia, el Reglamento General de Archivos – Acuerdo 07 de 1994 expedido por el Archivo General de la Nación, contempló el término Gestión de Documentos y desarrolló el tema en aspectos como la responsabilidad frente a la gestión documental, organización de archivos administrativos, sistemas empleados para la gestión de documentos, valoración documental, transferencias de documentos con valor permanente y eliminación de documentos. En 1996 el Archivo General de la Nación de Colombia en su publicación “Gestión documental: bases para la elaboración de un programa”, brinda algunos lineamientos generales para la implementación de un programa de gestión documental. Con la Ley 594 de 2000 – Ley General de Archivos, el tema de la gestión documental queda consignado en el Título V, Artículos 21 al 26, en los que se establece que las entidades públicas deberán elaborar programas de gestión documental, se señalan los procesos archivísticos, la formación de archivos a partir del concepto de archivo total, la obligatoriedad de las tablas de retención, la reglamentación de los documentos contables, notariales y otros y la obligación de los inventarios documentales. En las normas complementarias a la Ley 594 de 2000 – Ley General de Archivos, se continua con la formulación de la política archivística nacional, la reglamentación de metodologías para la organización, conservación y difusión de los documentos, el desarrollo de elementos técnicos y normativos del Sistema Nacional de Archivos, la sensibilización y regulación sobre la importancia de los 22 archivos para la administración y la cultura así como, la conservación y preservación del patrimonio documental. El uso del ordenador en la gestión documental se inicia en la práctica a partir de la experiencia de las grandes bibliotecas nacionales anglófonas, la Biblioteca del Congreso de los Estados Unidos de América y la British Library, que en los años 60 del siglo XX crean el formato bibliográfico MARC (Machine ReadableCataloguing) o catalogación legible por máquina, para sus bases de datos. Unos años más tarde el uso de las tecnologías de información y comunicación se hizo común en la administración pública y privada, con el uso generalizado de bases de datos y la aparición de los procesadores de textos y otras aplicaciones ofimáticas. En la actualidad, coexisten en el mundo los más diversos sistemas de gestión documental: desde el simple registro manual de la correspondencia que entra y sale, hasta los más sofisticados sistemas informáticos que manejan no sólo la documentación administrativa propiamente tal como venga ella en papel o en formato electrónico, sino que además controlan los flujos de trabajo del proceso de tramitación de los expedientes, capturan información desde bases de datos de producción, contabilidad y otros, enlazan con el contenido de archivos, bibliotecas, centros de documentación y permiten realizar búsquedas sofisticadas y recuperar información de cualquier lugar (Wikipedia, 2015). Las siguientes empresas presentan productos o servicios que utiliza la gestión documental. 9.1.1.2. EMPRESAS QUE TRABAJAN CON PRODUCTOS Y SERVICIOS DE GESTIÓN DOCUMENTAL 9.1.1.2.1. CIGEM CONSULTORES S.A.S Está comprometida con satisfacer las necesidades y expectativas de los clientes, suministrando soluciones integrales en el manejo de sus archivos, incorporando tecnología avanzada en todos campos garantizando su eficacia y eficiencia en el 23 tiempo para mantenernos como líderes en servicio (CIGEM CONSULTORES S.A.S, 2003). Trabaja con la herramienta SNAPDOC. HERRAMIENTA SNAPPDOC. Snappdoc es una herramienta de radicación electrónica de documentos, que le permite acceder y disponer de su correspondencia en línea desde cualquier lugar y en cualquier momento. CARACTERISTICAS: SnappDoc permite gestionar, administrar y analizar los procesos de radicación, indexación, identificación, digitalización, organización y distribución electrónica de los documentos que entran y salen de su compañía día a día. Dispone de una interfaz intuitiva que le permite indexar(digitar) los datos comunes que se deben registrar cada vez que ingresan o salen documentos en la unidad de correspondencia en su compañía. Permite distribuir y transmitir los documentos previamente digitalizados, con el fin de ser entregados a sus respectivos destinatarios dentro de su organización. Consulta y administra la correspondencia de toda la compañía en una sola plataforma disponible 24/7 los 365 días del año. Utiliza SnappDoc desde el dispositivo preferido, en cualquier lugar y en cualquier momento. TRAZABILIDAD Y GESTIÓN Mantener el control total de los documentos que entran y salen de la compañía. Crea y gestiona los reportes de su correspondencia. 24 Toda la correspondencia que radica en Snappdoc lleva consigo una etiqueta con un código QR y datos principales con el fin de generar la trazabilidad del proceso. RESPONSABLE Y SOSTENIBLE Ahora se podrá utilizar solo documentos digitales en las compañías. Digitalizar los documentos y empieza la era de ¡CERO PAPEL! Snappdoc es el mejor aliado. Con Snappdoc contribuye al cuidado del planeta. FLEXIBLE Y ADMINISTRABLE Con Snappdoc dispone de cuatro perfiles de usuario para que se administre la unidad de correspondencia: Súper Administrador Administrador de Sede Radicado Destinatario Final 9.1.1.2.2. ATHENTO Smart Document Management- permite a las empresas automatizar procesos relacionados con la captura, gestión, almacenamiento y distribución de documentos. A diferencia de otros sistemas, Athento permite a las compañías contar con un proceso de Enterprise Content Management integrado en sus diferentes fases. ¿Qué es Smart Document Management? La Gestión Documental Inteligente o "Smart Document Management" es la aplicación de nuevas tecnologías como la Semántica, el procesamiento de imágenes y del lenguaje natural a la Gestión de los Documentos y del Conocimiento, de esta forma automatiza tareas administrativas relacionadas con 25 la captura y clasificación de documentos o el procesamiento de la información que hay en documentos no estructurados. Smart Document Management implica además resolver la problemática de la Gestión de Documentos y de Contenidos Empresariales desde una perspectiva más integral, es decir, resolviendo las necesidades en todas las fases de ciclo de vida de los documentos. Athento es una aplicación de Smart Document Management que permite a las empresas cubrir las necesidades de gestión y de captura de documentos. Cómo funciona la Gestión Documental Inteligente de Athento? Athento -Smart Document Management- permite a las empresas automatizar procesos relacionados con la captura, gestión, almacenamiento y distribución de documentos, a diferencia de otros sistemas, Athento permite a las compañías contar con un proceso de Enterprise Content Management integrado en sus diferentes fases. Con Athento, una empresa puede obtener la funcionalidad de un potente sistema de gestión documental, más toda la funcionalidad de un sistema de captura y la posibilidad de mediante módulos cubrir también necesidades específicas de Distribución, Preservación y Gestión de Procesos de Negocio -BPM-. Para las empresas esto significa una reducción importante de costes y un sistema de gestión documental global robusto e integrado en su sistema de información. Athento ha sido desarrollado mediante módulos, sus dos módulos fundamentales son el módulo de Captura y el módulo ECM. Estos dos módulos, integrados de forma nativa pero independiente, cubren las fases de Captura, Almacenamiento, Gestión y parte de la Distribución, para el resto de fases o desarrollo de disciplinas específicas dentro de las fases (como el caso de BPM), Athento aporta una plataforma que provee servicios modularizados que pueden ser utilizados para la 26 adaptación de la herramienta o la satisfacción de necesidades más específicas de Distribución, Gestión de Records, o Business Process Management por ejemplo. Qué ventaja aporta la Gestión Documental Inteligente? Estos sistemas tienden a mejorar aspectos de la gestión de contenidos empresariales (ECM) tales como la captura, las búsquedas y la gestión. Reducción a 0 del tiempo en entrada manual de metadatos: Extraer información del contenido del documento y utilizarla para identificar, describir y distinguir un documento ocupa el tiempo de los trabajadores cuando podría hacerse de forma automática. Reducción a 0 del tiempo dedicado a la clasificación de documentos: Identificar el tipo de activo digital que estamos manejando y guardarlo en su respectiva ubicación, no tiene que ser una tarea realizada por personas. Hacer llegar la información a quién la necesita: Ya sea dirigiendo documentos a través de un flujo de trabajo o enviando información extraída de documentos a sistemas externos como SAP, Navision, Open Bravo u Open ERP. Eliminar pérdidas de tiempo en búsquedas: Conseguir que un software busque documentos y contenidos de las misma manera en que lo haría un humano gracias a la semántica, significa búsquedas más precisas y por lo tanto menos tiempo desperdiciado. (Athento). 9.1.1.2.3. SKINATECH Es una empresa de base tecnológica que provee soluciones integrales a problemas de manejo de información de empresas basadas en servicios de consultoría especializada, soporte a soluciones, Infraestructura administrada y Hardware o Software appliances, mediante su herramienta 27 Orfeo (2007).ORFEO. Es un sistema de Gestión Documental y de procesos desarrollado inicialmente por la Superintendencia de Servicios Públicos Domiciliarios (SSPD) en Colombia, licenciado como software libre bajo licencia GNU/GPL para compartir el conocimiento y mantener la creación colectiva. Permite incorporar, la gestión de los documentos a los procesos de cualquier organización, automatizando procedimientos con importantes ahorros en tiempo, costos y recursos tales como toners de impresora, papel, fotocopias, entre otros, así como el control sobre los documentos. Además de la SSPD, Orfeo está siendo utilizado y/o implementado en un sinnúmero de entidades tanto públicas como privadas que reúnen ya más de 15000 usuarios y está siendo estudiado su uso por parte de entidades y organizaciones en otras partes del mundo gracias a su filosofía de Software Libre. Esta herramienta puede instalarse en cualquier sistema Operativo (GNU/Linux, Unix, Windows,...), con diferentes bases de datos (PostgreSQL, Oracle y MS SQL Server), además maneja múltiples tipos de Formatos (ODT, XML, DOC), logrando así obtener independencia de plataforma tecnológica y reducción de costos en la implementación. TABLA1: Descripción de herramienta Orfeo Funcionalidad Descripción Radicación de entrada Por medio de este módulo, se reciben todos los documentos de la entidad estos son procesados y enviados a su destino inicial (jefatura de cada dependencia). En este proceso se digita la información básica del documento al cual se le asignará un archivo digital (imagen escaneada). Módulo de digitalización Es una aplicación cliente servidor que digitaliza los documentos recibidos y los asocia al registro creado desde el módulo de radicación de entrada. 28 Funcionalidad Descripción El cliente es una herramienta de uso intuitivo similar a un Web-Mail. La herramienta le permite al usuario administrar diferentes carpetas predefinidas o personalizadas, donde se almacenan sus documentos de trabajo. El cliente permite ordenar o filtrar documentos, facilitando la ubicación rápida Interfaz de Usuario de estos, así mismo es posible desde el cliente definir y Final conformar expedientes que le permitan a la entidad vincular documentos que están relacionados entre sí. Desde el cliente, el usuario podrá acceder a la imagen digitalizada de un documento o ingresar en un módulo de vista general con el fin de conocer más información del mismo. Gestión del Documento A través de este módulo, se puede conocer en detalle información del documento, el flujo de trabajo que ha tenido éste desde su ingreso al sistema, se pueden modificar algunos datos iníciales del registro, tipificarlo, clasificarlo y asociarlo a las tablas de retención documental relacionadas con las funciones y procesos de la entidad, así mismo se puede asociar aquí un documento a un expediente, anexarle nuevos documentos o solicitar el físico que reposa en archivo. Además es posible programar alarmas para el flujo documental que se reflejan visualmente en una carpeta denominada agendados. La radicación de salida es un módulo que puede ser utilizado para dar respuesta a un documento de entrada o para generar una comunicación nueva. Estos documentos de salida pueden ser notificaciones, pliegos de cargos, y otros producidos por la entidad. Radicación de Salida Otra funcionalidad de este módulo es la de generación de documentos de salida en forma masiva utilizando documentos elaborados con formatos .odtó .doc y un archivo asociado .csv, generando los respectivos radicados desde cualquier dependencia y haciendo uso de la radicación unificada de la entidad. Adicional a la radicación de salida el sistema puede ser parametrizado para realizar cualquier tipo de radicación que permita identificar un grupo general de documentos como los memorandos, resoluciones, circulares, entre otros., los cuales deban ser numerados para el respectivo control en la entidad. 29 Funcionalidad Descripción Radicaciones de Documentos Adicionales Orfeo permite que cada entidad parametrize los tipos documentales que quiere que el sistema maneje, controlando las secuencias como la entidad lo estime conveniente. Ej. Resoluciones, Circulares, Memorandos, entre otros. Traslado de Documentos Los documentos se pueden trasladar de un usuario a otro con niveles de control definidos por las áreas que se establezcan, entre estos traslados se incluye el envío de correspondencia que tiene origen cuando son radicados documentos para salida, estos pasan a una carpeta predefinida llamada impresión, a la cual una o varias personas que tienen este permiso lo imprimen y lo envían al área de correspondencia para su trámite respectivo. Una vez recibido el documento en el área de correspondencia, es procesado para su posterior envío, teniendo en cuenta las especificaciones de trabajo manejadas por la empresa de correo, generando planillas y guías para las modalidades de correo normal o certificado. Cuenta además este módulo con una sección de devolución de correo para retomar documentos que no pudieron ser entregados por alguna razón. Los usuarios encargados de este proceso en cada dependencia, deciden si los documentos son archivados o reenviados. Cada usuario puede conocer los detalles de envío del documento desde su bandeja de entrada. Este módulo permite procesar las solicitudes de documentos físicos para entregarlos a los funcionarios solicitantes, controlando de esta forma donde está cada documento y el Archivo y Préstamo tiempo que dura en poder de los funcionarios, a través de de Documentos diferentes reportes, brindando también la posibilidad de clasificar los documentos físicos dependiendo de los datos ingresados por el usuario desde la sección de expedientes en el módulo general, el cual incluye entre otros datos ubicación física del documento y la conformación del expediente físico. Permite a los usuarios consultar cualquier documento, a través de diferentes mecanismos de filtrado dependiendo del Consultas nivel de acceso que tenga el usuario que efectúa la consulta. Estadísticas y Reportes Se pueden obtener reportes para establecer el nivel de rendimiento en los diferentes procesos como Número de documentos radicados, digitalizados, trámite en dependencia, radicados actuales sin tramitar, entre otros. Los cuales 30 Funcionalidad Descripción permiten detectar posibles retrasos durante su trámite y así establecer unos niveles de control y posibles contingencias de ser necesario. Expedientes Virtuales El módulo de Expedientes virtuales que permite a los usuarios observar en línea las imágenes de los documentos que reposan en el archivo físico cumpliendo con el principio de orden y procedencia, es decir que se conservan en el orden en que suceden los hechos, con esta funcionalidad se logra que la unidad documental o expediente virtual se conserve en el mismo orden del expediente físico, se logra la aplicación dinámica de las Tablas de Retención Documental haciendo partícipe a los productores de documentos dentro del proceso documental. Este desarrollo ha facilitado el seguimiento a las diferentes series documentales (por ejemplo las series de contratos, investigaciones, Silencios Administrativos, entre otras). El módulo de Flujos de Trabajo (WorkFlow), permite realizar seguimiento, generar estadísticas y alertas sobre cada uno de los procesos que se manejan en la entidad. Estamos Flujos de Trabajo y empezando a desarrollar herramientas que integran los Procesos(WorkFlow) documentos y expedientes virtuales a Procesos, de esta manera Lograr Convertir a Orfeo en una Herramienta de Gestión por Procesos (BPM). Módulo que garantiza interoperabilidad del Orfeo con otras Herramientas, lo que conlleva a proceder a Orfeo a un sistema Orientado a los Servicios. Las aplicaciones externas podrán enviar datos o variables que requiera orfeo para InterOperabilidad generar Radicados, Expedientes, Adjuntar Archivos, entre con otros aplicativos otros. En las versiones a partir de 2008 se encontrará (WebServices) disponible la implementación de Webservices y formularios de variables dinámicos que permitirán que Orfeo almacene y comparta información de variables que requieran los Procesos que se generan en la aplicación. Este módulo permite aprovechar la ventaja de documento estándar de formato abierto (Conforme a los estándares Modulo de Manejo ISO), haciendo posible editar el documento en múltiples de Plantillas en ODT herramientas ofimáticas como OpenOffice, Koffice, AviWord, y XML Office, entre otros, liberando al ciudadano de la adquisición de Software para ver y editar los documentos producidos. 31 Funcionalidad Descripción Esta herramienta permite realizar el cargue, ajuste y administración de las Tablas de Retención Documental, Tablas de Retención previamente aprobadas por el AGN para cada Entidad, Documental realizando una aplicación dinámica con el administrador y los usuarios del sistema con enfoque de procesos. De un lado permite colocar en la página de la entidad formularios para recibir solicitudes o documentación de los usuarios a través de la red de Internet, generándoles un documento (por ejemplo un pdf), con número de la solicitud para que el usuario pueda consultar el estado del trámite vía Consultas Web en web. Línea De otra parte, es posible consultar Expedientes en línea para facilitar a terceros, previamente autorizados la consulta en línea de expedientes completos sin tener que dirigirse a la Entidad. 9.1.1.2.4. OpenKM OpenKM. Se caracteriza por ser una aplicación web de gestión documental que utiliza estándares y tecnologías Open Source, además de poseer un amplio abanico de posibilidades en torno al documento, como metadatos, escaneo, añadir comentarios al documento, workflow, entre otros. Lo que permite sociabilizar más con los usuarios que tramitan con la información dentro de la aplicación. ¿Porque utilizar OpenKM? OpenKM es un repositorio de gran valor de los activos de información corporativa que facilita la creación de conocimiento y mejora la toma de decisiones de negocio. El resultado para la organización es: Una mejora de la productividad en forma de prácticas compartidas. Una mayor eficiencia de costes. 32 Mejores relaciones con los clientes. Los ciclos de ventas más rápido, acortar el tiempo del producto al mercado, y una mejor toma de decisiones. Hacer lo fácil lo complejo OpenKM proporciona una solución integral mediante la gestión de la información tanto estructurada como no. Utilizar OpenKM es muy sencillo gracias a una interfaz de usuario intuitiva y fácil de usar que permite: Recopilar la información de cualquier fuente digital. Colaborar con otros miembros de la organización en documentos y proyectos. Ayuda a las empresas a capitalizar el conocimiento acumulado a través de la localización de documentos, expertos, y fuentes de información. (OpenKM, 2004) 9.1.2. ASPECTOS GENERALES CRAWLER Internet es una fuente de información muy extensa con más de 1,200 millones de páginas y con un ritmo de duplicación que varía entre 6 y 8 meses. Las páginas provienen de ámbitos sociales diversos (instituciones oficiales, mundo académico y de investigación, particulares, entre otros.) y ofrecen información de todos los ámbitos del conocimiento humano La red de Internet está llena de información valiosa, pero también hay muchísima información poco relevante (denominada ruido) que hace perder tiempo a la hora de buscar algo. No se dispone de una manera organizada que facilite la localización y recuperación de la información, sin embargo se han desarrollado herramientas de búsqueda (denominadas motores de búsqueda) las cuales están diseñadas para ayudar al usuario a encontrar rápidamente la información que 33 necesita atendiendo a sus características, los motores de búsqueda se pueden clasificar en tres grandes categorías: los basados en crawlers, los basados en índices o directorios y los meta motores de búsqueda. Gracias a estos, se puede buscar cualquier tema introduciendo algunas palabras que hagan referencia a él y acceder a su información en cuestión de segundos. Muchas empresas se dedican a mantener un catálogo de toda la información que se genera día a día en Internet, clasificando la información más relevante de forma temática y manual, dichas empresas entran en la clasificación de los llamados índices de Internet. El precursor de los índices o directorios (Yahoo) nace de la mano de dos estudiantes en Abril de 1994 como una iniciativa para catalogar los recursos más atractivos de la WWW (World Wide Web o red mundial). Yahoo se ha convertido en una fructífera empresa que ofrece su servicio de forma gratuita a cambio de que el usuario vea publicidad cada vez que accede para realizar una consulta, las ventajas principales de Yahoo son su completitud, su sencilla y atractiva interfaz y su facilidad de uso. Con la llegada de nuevas tecnologías y mejores conexiones, aparecieron nuevos sistemas más potentes que recopilan toda la información de Internet, estos son conocidos como crawlers. En 1993 se crea el primer crawler al que se le llamó worldwideworm (gusano mundial), era un programa que se arrastraba entre un sitio y otro e indexaba todas las páginas guardando el contenido en una base de datos encabezados por AltaVista, los servicios de este tipo emplean robots inteligentes que saltan de una página a otra en la red mundial, a través de hipertextos, recogiendo páginas y almacenando toda la información en una gigantesca base de datos. AltaVista comenzó a indexar las páginas existentes en Internet en Diciembre de 1995, nació como una necesidad de una herramienta más potente de búsqueda de información y ofrece una buena forma de localizar información cuando no se tiene muy claro en qué categoría puede enmarcarse, o cuando se requiere una mayor cantidad de información, la desventaja principal es el ruido que ocasiona en la red. 34 El crecimiento tan grande en la información publicada en Internet hace casi imposible que un sólo motor de búsqueda la mantenga indexada. Los meta motores de búsqueda, como MetaCrawler deInfoSpace, refuerzan la búsqueda más de dos veces en promedio, en comparación con lo que haría un motor de búsqueda común. MetaCrawler fue desarrollado en 1994 en la Universidad de Washington en Seattle por el estudiante Erik Selberg y el profesor Oren Etzioni. Fue liberado en Junio de 1995 autorizado a Netbot cofundado por Etzioni. En Febrero de 1997 Go2Net, ahora InfoSpace, se encargó de su operación, en Octubre de 1998 Etzioni se asoció a Go2Net y en Mayo de 1999 fue nombrado oficial en jefe de tecnología. 4 9.1.2.1. EMPRESAS QUE TRABAJAN CON LA TECNOLOGÍA ROBOTS DE NAVEGACIÓN. 9.1.2.1.1. RASTREADORES GOOGLE los robots Google utiliza para rastrear la web " Crawler" es un término genérico para cualquier programa (como un robot o araña ) que se utiliza para descubrir automáticamente y escanear páginas web siguiendo los enlaces de una página web a otra. Rastreador principal de Google se llama Googlebot, esta tabla muestra información acerca de los rastreadores de Google comunes que usted puede ver en sus registros referenciales y cómo deben ser especificados en el archivo robots.txt, los robots meta tags, y las directivas HTTP X- Robots - Tag. (Google Support , 2015). 9.1.2.1.2. SLURP Es el robot de Yahoo (o "araña") para la página web de recopilación de información. 4 Aguilar González, R. (15 de 12 de 2003). Motores de busqueda. Recuperado el 20 de 04 de 2015, de http://www.geocities.ws/motoresdebusqueda/inicio.html 35 Slurp recoge el contenido de los sitios asociados para su inclusión dentro de sitios como Yahoo News, Yahoo Finanzas y YahooSports. También accede a las páginas de los sitios de la Web para confirmar la exactitud y mejorar el contenido personalizado de Yahoo para los usuarios. (Yahoo, 2015). 9.2. MARCO CONTEXTUAL. Al enfrentar el gran desafío tecnológico, la comunidad del conocimiento se está dotando de todo tipo de aparatos digitales, para ser exitosos en las actividades diarias. El uso de aparatos digitales, no de todo tipo sino los realmente útiles, es decir los necesarios para lograr ser competitivo y estar consciente de la importancia de la tecnología que contribuye a la construcción de objetos virtuales para satisfacer a las necesidades de la humanidad, también conlleva una responsabilidad; el vicio, es caer en la esclavitud de ella o en el abuso, lo cual puede ocasionar muchos problemas en lo personal y profesional. Como usuarios pasivos o activos de la utilización de tecnología a través de todo tipo de equipos digitales algunos como pasivos, simplemente se limitan a revisar y consumir información mientras que el activo permanece constantemente atento, no solo a recibir información sino también a ser visible con su identidad digital en todos los espacios de la Web, cooperando con sus comentarios a través de las redes sociales, mediante la construcción de nuevos documentos para la enseñanza, aprovechando los contenidos enriquecedores de conocimientos y presentando oportunidades de mejora. Existen contactos importantes que pueden hacer reflexionar, con ideas de negocios, compartir información, establecer nuevos criterios y derrumbar antiguos paradigmas, entre otros. Hoy en día se hace indispensable la internet, comparada con la televisión y la radio las bondades de la Web y sus tecnologías hacen que los menos interesados 36 terminen “contagiados“ por la red, porque son muchas las utilidades que se brindan como el correo electrónico, Messenger, las redes sociales, el acceso de todo tipo de información para incorporar en las agendas digitales, celular, Portátiles, MP4 Players, Pendrive, Ipads, Blackberry, smartphone, memorias, escáner, Video Cámara, tarjetas kingston, Palm, reproductores de DVD, juegos softwares; el uso de estos equipos mediante los cuales se puede compartir información, conocimiento, experiencias, ideas, encontrar amigos, en fin, todas las aplicaciones que se quieran dar, la tendencia en la actualidad es tener la tecnología a la mano y si no se tiene se complicara la existencia para algunas personas . Sin embargo, el uso excesivo de la tecnología se puede llegar a generar desórdenes psicológicos de acuerdo a investigaciones cualitativas y cuantitativas, en la comunicación sincrónica y asincrónica, pues el internet incluye cada día mas formas de textos, videos, gráficos, voz, lo que convierte al individuo en un potencial adicto al internet y sus efectos de los cuales algunos de estos son los síntomas de comportamiento, euforia, satisfacción, la necesidad de estar en el internet. De acuerdo a las consultas sobre el tema el mal uso del internet, pueden ocasionar otros vicios y efectos negativos, tales como: Cambios de comportamiento humanos y las tendencias atacantes consecuentes del mal uso de las redes sociales. Vicios del lenguaje: Anfibología(escribir en doble sentido), barbarismo( emplear vocablos impropios), extranjerismos( uso palabras extranjeras), idiotismo(Modo de hablar contra las reglas ordinarias de la gramática), impropiedad(Empleo palabras con significado distintos del que tienen), Pleonasmo( Empleo de palabras innecesarias), Redundancia( Repetición innecesaria de palabras o conceptos), Dequeísmo(Eliminar elementos de enlace necesarios), A dequeísmo( Eliminar 37 elementos de enlace necesario “de”), estas son formas incorrectas al escribir o hablar. Técnicas de asalto a delincuentes cibernéticos Falta de control personal al consultar contenidos ilegales, nocivos o falsos. Adición a la relaciones cibernéticas (reemplazar las conversaciones de familia por conversaciones con desconocidos). Uso indiscriminado de las redes sociales y videos juegos on line. Fraudes informáticos, por propiedad intelectual. Frecuentar entornos sociales on line, los famosos encuentros con cibernautas en busca de cariño, amor, comprensión, que lo repliegan a desconocidos dando a conocer la dirección, datos personales, teléfonos. Recepción de mensajes desconocidos o spam (basura). (García, 2011) Con la ayuda de generar un espacio donde guardar su información de interés personal de ayuda, que genere conocimiento, cambiar su estilo de vida, al implantar una solución de varias partes a la propuesta de la fundación OneTwoTree, donde el impacto será generado en el almacenamiento y cuidado de los documentos que dichas personas sea relevante y sirva de apoyo para las demás personas, no tendrá perdida de datos, con (backups), se dará un aporte grande a la ecología y el transporte de grandes proporciones de papel físico para personas o se podría pensar en empresas que manejan volúmenes grandes, con el aporte en la región de Risaralda, se apoya la cultura, el desarrollo personal o profesional entre otros campos. One Two Tree una fundación sin ánimo de lucro que apoya al servicio ecológico, brindando soluciones con varios programas ambientales, una de ellas es la 38 siembra masiva de arboles y ahora aporta ideas de innovación tecnológica sembrando conciencia ambiental y emocional. 9.3. MARCO CONCEPTUAL 9.3.1. ASPECTOS GENERALES DE LA GESTIÓN DOCUMENTAL Un sistema de gestión documental por lo general se refiere a las siguientes áreas: Almacenamiento, recuperación, clasificación, seguridad, custodia, distribución, creación, autenticación. (codina, 1993) TABLA2: Gestión documental (Wikipedia, 2015). Almacenamiento ¿Dónde se guardara los documentos? ¿Cuánto se podrá pagar para almacenarlos? Recuperación ¿Cómo puede la gente encontrar documentos necesarios? ¿Cuánto tiempo se puede pasar buscándolo? ¿Qué opciones tecnológicas están disponibles para la recuperación? Clasificación ¿Cómo organizamos los documentos? ¿Cómo se asegura que los documentos estén archivados siguiendo el sistema más apropiado? Seguridad ¿Cómo se evita la pérdida de documentos, evitar la violación de la información o la destrucción no deseada de documentos? ¿Cómo mantener la información crítica oculta a quién no debiera tener acceso a ella? Custodia ¿Cómo decidir qué documentos conservar? ¿Por cuánto tiempo deben ser guardados? ¿Cómo proceder a su eliminación (expurgo de documentos)? Distribución ¿Cómo distribuir documentos a la gente que la necesita? 39 ¿Cuánto se podrá tardar para distribuir los documentos? Workflow ¿Si los documentos necesitan pasar a partir de una persona a otra, cuáles son las reglas para el flujo de estos documentos? Creación ¿Si más de una persona está implicada en creación o modificación de un documento, cómo se podrá colaborar en esas tareas? Autenticación ¿Cómo proporcionar los requisitos necesarios para la validación legal al gobierno y a la industria privada acerca de la originalidad de los documentos y cumplimos sus estándares para la autentificación? Los sistemas de gestión documental son programas de gestión de bases de datos que disponen de una tecnología idónea para el tratamiento de documentos científicos, culturales y técnicos. Estos sistemas difieren en aspectos fundamentales de los de gestión de bases de datos convencionales o de aplicación general que se utilizan para la gestión de documentos administrativos. 9.3.1.1. BASES DE DATOS Y AMBIGÜEDAD DEL OJETIVO DOCUMENTAL En los países de habla latina los documentalistas se arrastra una tradicional insatisfacción por la problemática denominación del campo de actividades ("¿documentación?... ¿y qué es eso?"). Es una denominación poco intuitiva, como demuestra el hecho de que incluso las personas cultas, salvo que trabajen en temas de documentación ignoran qué es la documentación. No sucede lo mismo con otras profesiones, cuya denominación por alguna razón, ya da una idea sobre cuál es su campo de actividad, incluso a los profanos. Esta ambigua denominación induce también una constante confusión en el terreno de los sistemas de información, incluso entre profesionales, porque documental, 40 aplicado a bases de datos, puede referirse a tecnologías de la información que a veces se aplican a gestionar documentos administrativos o puede referirse a tecnologías especializadas en el almacenamiento y recuperación de información documental científico-técnica. 9.3.1.2. ENTORNOS DE TRABAJO EN LA EMPRESA En la gestión de documentos existen, de acuerdo con lo señalado por lo menos dos entornos de trabajo muy diferenciados: un entorno administrativo y un entorno documental. El entorno administrativo utiliza documentos administrativos que son aquellos que permiten la gestión diaria de cada empresa, este entorno como es obvio, está presente en cualquier empresa o unidad de producción. El otro entorno utiliza documentación científica o técnica que es necesaria para dar soporte a ciertos departamentos de la empresa, como el de I+D, el de planificación y proyectos, el de ingeniería, el de investigación de mercados, entre otros; así como a aquellos empleados que entran en la categoría de lo que se denomina know ledge workers : ejecutivos, asesores, analistas, entre otros. A esta documentación se le denomina informativa o cognitiva. No todas las empresas disponen de tales entornos de trabajo. Las pequeñas y medianas empresas, por ejemplo, no suelen tener departamentos de I+D ni de ingeniería; y la cultura de los know ledge workers, no suele valorar la documentación, como consecuencia ni utilizan sistemas documentales ni conocen siquiera su existencia, y suelen informarse por el castizo método de "estar a verlas venir". 9.3.1.3. ESTRUCTURA DE UNA BASE DE DATOS Recordar que actualmente se tiende a adoptar una concepción muy laxa de base de datos y se tiene por tal a cualquier colección de datos grabados en un soporte legible por ordenador, que exista con el propósito de proveer información a otras aplicaciones o a usuarios finales. Estos datos se agrupan en unidades de tratamiento denominadas registros los cuales a su vez, están organizados en zonas o sub-elementos denominados 41 campos. Los objetos materiales o conceptuales de los que trata una base de datos se denominan entidades, y así a cada entidad del mundo real corresponde un registro en el mundo simbólico de las bases de datos, donde aquellas entidades están representadas mediante un modelo simplificado: el registro. Las entidades del mundo real poseen unos atributos determinados y aquellos atributos que son más pertinentes para representar la entidad se convierten en los campos del registro. Por ejemplo, si los clientes de una empresa son la entidad representada en una base de datos, entonces a cada cliente le corresponderá un registro, cada elemento de información o atributo del cliente como nombre, dirección, población, entre otros., será un campo del registro. Hasta aquí se han visto las similitudes en los dos sistemas de bases de datos existentes actualmente. Las características y propiedades de los registros y campos, la forma de acceso a la información y las herramientas complementarias difieren considerablemente entre unos y otros sistemas. 9.3.1.4. SISTEMAS ADMINISTRATIVOS VERSUS SISTEMAS DOCUMENTALES La tecnología de los sistemas administrativos suele basarse en el modelo relacional, y la tecnología de los sistemas documentales se basa en el modelo textual. En los dos casos ambas tecnologías disponen de un sistema de gestión de bases de datos como núcleo. Últimamente han aparecido soluciones que combinan ambas. Los sistemas relacionales utilizan la tabla como estructura de datos. Una tabla es una matriz de dos dimensiones compuesta de filas y columnas, cada columna corresponde a un campo y cada fila corresponde a un registro. En una tabla la longitud de cada campo debe estar determinada y prefijada de antemano y no admite valores repetidos (por ejemplo, dos autores, o diversas palabras clave). 42 Los sistemas documentales en cambio, utilizan el modelo textual basado en el fichero invertido y campos de extensión variable con valores repetidos es el único modelo que por ahora se ajusta a la necesidad de los documentos científicotécnicos. 9.3.1.5. SISTEMAS ADMINISTRATIVOS U OFIMÁTICOS Los sistemas automatizados de gestión de documentos administrativos suelen recibir el nombre de sistemas ofimáticos y están orientados a las necesidades de gestión de documentos propios de las empresas. Suelen consistir en extensiones de los sistemas de gestión de bases de datos convencionales, es decir, en sistemas relacionales. El tipo de documentos que gestionan por más que sean vitales para la empresa no necesitan el análisis ni la indización que en cambio necesitan los documentos técnicos o científicos tales como artículos de revistas, noticias de actualidad o informes técnicos. El modelo relacional se desarrolló en realidad para gestionar datos, no tanto para gestionar objetos más complejos ni como documentos, pero aún así puede gestionarlos siempre que sean muy estructurados como suelen ser los administrativos. 9.3.1.6. EL MODELO CLÁSICO DE LOS SISTEMAS DOCUMENTALES O COGNITIVOS La documentación científico-técnica, también llamada informativa y cognitiva, requiere para su gestión sistemas muy especializados que permiten recuperar información a partir del análisis y la descripción del contenido o materia del documento. Los sistemas documentales se basan en una estructura menos formalizada que los sistemas ofimáticos. La estructura clásica incluye cuatro elementos principales: un modelo de registro textual estructurado en campos de extensión 43 variable; la inversión de términos que conduce a la creación de un fichero invertido; uno o más diccionarios que controlan la indexación (diccionario de palabras vacías, de sinónimos, de palabras autorizadas, entre otros.); un sistema de recuperación basado en el álgebra de Boole para realizar operaciones lógicas con conjuntos de documentos y otro sistema complementario de recuperación basado en comparaciones, truncamientos, proximidad, entre otros. De cadenas de caracteres. En este sentido un sistema documental clásico intenta proporcionar herramientas para gestionar información no estructurada (es decir, cuyos atributos no son deducibles sin una operación compleja de análisis intelectual), ni posee propiedades repetitivas como un impreso de oficina, sino que su estructura es sumamente variable de un documento a otro. Un artículo de una publicación científica o un informe técnico, por ejemplo, sería el paradigma de tal tipo de información. Para su recuperación no basta registrar datos como el autor, el destinatario y la fecha de creación. Debe representarse también la información y el conocimiento que pueda contener ese documento. 9.3.1.7. VARIACIONES SOBRE EL MODELO CLÁSICO En los últimos años se ha producido una serie de innovaciones en la tecnología documental que sin negar el modelo clásico, lo extienden y complementan. Veamos estas innovaciones a partir de los siguientes parámetros: el modelo de registro, el sistema de recuperación y la combinación con el modelo relacional. 9.3.1.8. LA ESTRUCTURA DEL REGISTRO El concepto de registro ha sufrido una extraordinaria ampliación. Algunos sistemas admiten cualquier formato con o sin campos, incluso el registro puede mantener el formato nativo de la aplicación con la que ha sido creado, es decir, que indexan y gestionan documentos sin necesidad de adaptarlos al formato de la base de datos. 44 Algunos sistemas permiten también la gestión de los así llamados documentos compuestos, que consisten en documentos que incluyen información multimedia (texto, gráficos y sonido) creada con diversas aplicaciones. Estos documentos compuestos conservan la vinculación con los diversos programas que han creado cada parte del documento. 9.3.1.9. SISTEMAS DE INTERROGACIÓN En cuanto al método de recuperación, comienzan a aparecer sistemas que incorporan aportaciones de la teoría de recuperación de información tales como el cálculo de relevancia de cada uno de los documentos recuperados con tal de presentarlos por su grado de probabilidad de satisfacer la demanda del usuario o sistemas que convierten un texto de un documento en un modelo de búsqueda de documentos con contenidos similares. Windows Personal Librarian (CSI) es uno de los programas que incorpora tales características. (codina, 1993).5 9.3.1.10. ROBOTS Y AGENTES Los principales buscadores de Internet construyen sus bases de datos usando robots comúnmente denominados spiders (arañas), crawlers o webcrawlers. Estos robots son potentes programas que recorren la Web de forma automática y buscan textos a través de los documentos HTML (u otro tipo de formatos como pdf, imágenes, entre otros.), donde se incluyan determinadas palabras. Estos textos, junto con las direcciones URL que los contienen son indexados, clasificados y almacenados en grandes bases de datos para que los internautas posteriormente, dirijan allí sus consultas e interroguen a la base de datos buscando alguna palabra o frase. Los robots vuelven a recorrer periódicamente estas páginas para buscar alguna modificación o la incorporación de nuevas palabras. Así, la actualización se realiza de forma automática. En general, los robots comienzan con un listado 5 Codina, L. (05 de 1993). Qué es un sistema de gestión documental. Recuperado el 25 de 04 de 2015, de Revista Internacional CIentifica y Profesional: http://www.elprofesionaldelainformacion.com/contenidos/1993/mayo/qu_es_un_sistema_de_gestin_docu mental.html 45 de enlaces y URLs preseleccionadas y recurrentemente visitan los documentos que se referencian desde las mismas. La tipología de los agentes varía de unos autores a otros, pero lo más común es establecer una tipología basada en 3 características: cooperativos, autónomos y de aprendizaje. Así, se encuentra: Agentes Colaborativos: Cooperativos y Autónomos Agentes de Interfaz: Autónomos y de Aprendizaje Agentes de Aprendizaje Colaborativos: Cooperativos y de Aprendizaje Agentes Smart: Cooperativos, Autónomos y de Aprendizaje Las aplicaciones de los agentes son muy numerosas, entre las que se pueden destacar: uso de agentes en Internet e interfaces de usuarios, utilización en sistemas de información, juegos y animaciones, comercio electrónico, educación, entre otros. En el ámbito de la Web y, de forma específica, se pueden destacar los siguientes tipos de agentes: AGENTE AUTÓNOMO: se trata de un programa que "viaja" entre los sitios web, decidiendo por él mismo qué debe hacer y cuándo debe moverse a otros lugares. Estos agentes sólo pueden viajar entre sitios ubicados en servidores especiales y no están muy difundidos en el área de Internet. AGENTE INTELIGENTE: Se trata de un programa que ayuda al usuario a ciertas acciones. Por ejemplo, a rellenar formularios, elegir productos, encontrar determinada cosa, entre otros. Este tipo de agentes también se denominan softbot significa software robot, utiliza herramientas de software y servicios basados en el comportamiento de las personas. 46 AGENTE DE USUARIO: Es el nombre técnico para denominar a un programa que ejecuta determinadas tareas para un usuario en la red. Ejemplos son: un navegador como Internet Explorer, o un agente de correo del tipo Email User-agent, Eudora entre otros. (Lamarca Lapuente) 9.4. METODOLOGÍA INVESTIGACIÓN APLICADA La investigación científica aplicada se propone transformar el conocimiento 'puro' en conocimiento útil. Tiene por finalidad la búsqueda y consolidación del saber y la aplicación de los conocimientos para el enriquecimiento del acervo cultural y científico, así como la producción de tecnología al servicio del desarrollo integral de las naciones. La investigación aplicada puede ser Fundamental o Tecnológica. La aplicada fundamental, se entiende como aquella investigación relacionada con la generación de conocimientos en forma de teoría o métodos que se estima que en un período mediato podrían desembocar en aplicaciones al sector productivo. Por ejemplo, en el sector médico, se emprenden investigaciones para tratar de conocer el mecanismo o los orígenes de cierta enfermedad o dolencia con el fin de poder combatirla posteriormente, aunque no se sepa si llegará a ser necesario el crear una droga para este fin. La investigación aplicada fundamental puede ser, a su vez, teórica, experimental, o una mezcla de ambas; dependiente de la naturaleza de su trabajo y sus productos pueden ser artículos científicos publicables, sobre todo si en su desarrollo no está involucrado el interés de una empresa. La investigación aplicada tecnológica, se entiende como aquella que genera conocimientos o métodos dirigidos al sector productivo de bienes y servicios, ya sea con el fin de mejorarlo y hacerlo más eficiente, o con el fin de obtener productos nuevos y competitivos en dicho sector. 47 Sus productos pueden ser prototipos y hasta eventualmente artículos científicos publicables. En el caso de la investigación médica del ejemplo anterior, la investigación tecnológica se realizaría alrededor del desarrollo de una droga específica para la cura de una determinada dolencia y se pretendería, que la droga fuera a dar al mercado.6 Para la elaboración de investigación a realizar en el proyecto se utilizara el método de investigación científica aplicada a la tecnología ya que con la investigación se pretende dar a conocer, varios software para la gestión de archivos, el no uso de papel en las empresas y la conciencia colectiva. Es de mucha importancia realizar la investigación, ya que se contribuye al medio ambiente, al factor económico de las empresas y lo más importante a salvaguardar la información importante de cada persona o de las empresas. 10. PERSPECTIVA DESDE LA LEY Desde la perspectiva de la Ley General de Archivos, se define Gestión documental como el “Conjunto de actividades administrativas y técnicas tendientes a la planificación, manejo y organización de la documentación producida y recibida por las entidades desde su origen hasta su destino final, con el objeto de facilitar su utilización y conservación”. Un programa de gestión documental se puede definir como el conjunto de instrucciones en las que se detallan las operaciones para el desarrollo de los procesos de la gestión documental al interior de cada entidad, tales como producción, recepción, distribución, trámite, organización, consulta, conservación y 6 von Braun, W. (s.f.). Lección 5: Investigación pura, investigación Aplicada, Investigación profesional. Recuperado el 29 de 05 de 2016, de UNAD. Universidad Nacional Abierta y a Distancia: http://datateca.unad.edu.co/contenidos/100104/100104_EXE/leccin_5_investigacin_pura_investigacin_apli cada_investigacin_profesional.html 48 disposición final de los documentos. Con la implantación de un programa de gestión documental se pretende alcanzar los siguientes objetivos: Resaltar la importancia del papel de los documentos y archivos, como lenguaje natural de la administración pública para el funcionamiento de la misma, elementos necesarios para la participación ciudadana, apoyos decisivos para la transparencia y el control de la gestión pública y garantía de los derechos individuales y colectivos. Procurar la racionalización y control en la producción documental, en atención a los procedimientos, trámites administrativos y flujos documentales lo mismo que la normalización de modelos y formatos para la producción documental. Normalizar la utilización de materiales, soportes y equipos de calidad y que a la vez preserven el cuidado del medio ambiente. Lograr una acertada normalización en los procedimientos para el recibo, radicación y distribución de la correspondencia mediante la utilización de sistemas eficientes de correo y mensajería. Regular el manejo y organización del sistema de administración de documentos y archivos a partir de la noción de Archivo Total y los enunciados de finalidad, responsabilidad, confidencialidad, seguridad y accesibilidad. Implementar el desarrollo de procesos básicos de aplicación de la tabla de Retención Documental, organización, transferencias primarias, recuperación, preservación, conservación de la información y disposición final de los documentos. Facilitar la recuperación de la información en forma rápida y oportuna. Encaminar los archivos para que sean verdaderos centros de información útiles para la administración e importantes para la cultura. 49 La Ley 594 de 2000 - Ley General de Archivos, reguló en su Título V: Gestión de documentos, la obligación que tienen las entidades públicas y privadas que cumplen funciones públicas, en elaborar programas de gestión de documentos, independientemente del soporte en que produzcan la información para el cumplimiento de su cometido estatal o del objeto social para el que fueron creadas. En su regulación la Ley 594 previa que el desarrollo tecnológico en las entidades es desigual y por lo tanto deja claro que los principios y procesos archivísticos deben aplicarse cualquiera sea la tecnología y el soporte en que se produce la información. Con este instrumento el Archivo General de la Nación pretende entonces orientar a las entidades públicas y privadas que cumplen funciones públicas para facilitarles la adopción y adaptación del programa. En dicha norma, la gestión de documentos se enmarca dentro del concepto de Archivo Total comprendiendo procesos tales como la producción, recepción, distribución, consulta, organización, recuperación y disposición final de los documentos y de forma expresa refiere entre otros aspectos a la obligación de la elaboración y adopción de las Tablas de Retención Documental instrumento archivístico que identifica para cada entidad, de acuerdo con sus funciones y procedimientos los documentos que produce, recibe y debe conservar con sujeción al principio de eficiencia que rige la función administrativa y al de racionalidad que rige para los archivos como elementos fundamentales de la administración pública, agentes dinamizadores de la acción estatal y sustento natural de sus procesos informativos. La Ley General de Archivos en el título V, Gestión de Documentos, Artículo 21. Programas de Gestión Documental, establece que: “Las entidades públicas deberán elaborar programas de gestión de documentos, pudiendo contemplar el uso de nuevas tecnologías y soportes en cuya aplicación deberán observarse los principios y procesos archivísticos” y en el Artículo 19 “las entidades del Estado 50 podrán incorporar tecnologías de avanzada en la administración y conservación de sus archivos empleando cualquier medio técnico, electrónico, informático, óptico o telemático, siempre y cuando cumplan con los siguientes requisitos: a) Organización archivística de los documentos. b) Realización de estudios técnicos para la adecuada decisión teniendo en cuenta aspectos como la conservación física, las condiciones ambientales y operacionales, la seguridad, perdurabilidad y reproducción de la información contenida en estos soportes así como el funcionamiento razonable del sistema.” En cumplimiento de lo anterior, un sistema de información para el Programa de Gestión Documental debe concebirse desde su inicio como un sistema integral que se ajuste conceptualmente a los principios archivísticos y a los objetivos de dicho programa. Es por ello que no obstante por desigual desarrollo tecnológico, se recomienda que la metodología utilizada para el desarrollo o adecuación del sistema de información involucre y surta una etapa de análisis y diseño conceptual del sistema integral acorde con los parámetros y normas archivísticas y en caso de automatizar el sistema se determine y adopte la plataforma tecnológica adecuada de conformidad con los alcances del proyecto. Es de advertir, que la carencia de una política archivística en las entidades durante mucho tiempo incidió en que los documentos producidos por las instituciones no tuvieran tratamiento archivístico alguno y por lo tanto hoy se encuentran en la mayoría de las entidades, fondos acumulados que no se pueden desconocer por ser una realidad que se afronta en los archivos de las entidades del país. Por lo anterior, el Archivo General de la Nación contempla en este modelo de Programa de Gestión Documental esta situación de los fondos acumulados para que sea corregida y superada por las entidades como un capítulo aparte para su atención y desarrollo. 51 11. RESULTADOS ANEXOS Con la anterior investigación, donde se encuentra aspectos de la Gestión Documental y de crawler, con empresas que trabajan dichos aspectos en el cual la constitución Colombiana ha estipulado leyes para las organizaciones, respecto a la Gestión Documental. Con el planteamiento del problema en el contexto generado por la Fundación ONE TWO TREE, se dará a conocer los resultadosl con base al problema planteado. Tomando 4 software libre de Gestión Documental y teniendo en cuenta algunas recomendaciones para un buen Gestor, se realiza una consulta sobre cada uno de ellos, hacer su respectiva descarga y su instalación. El primero de ellos es OpenKM un gestor fácil de descargar desde su página oficial, una interfaz amigable al cliente es seguro con configuración de usuarios asignando roles entre otras opciones y es una buena alternativa para las organizaciones o personas que deseen gestionar la información, en la instalación se presenta problemas de puertos del Gestor con otros programas instalados, se logró cambiar los puertos del tomcat y poder tener comunicación con el servidor, con lo que se debe tener en cuenta ese aspecto no solamente para OpenKM sino para cualquier Gestor Documental. El segundo Gestor Documental es Alfresco, la descarga no tuvo complicaciones haciéndose desde la página oficial, tampoco a la hora de su instalación, solamente se tuvo dificultad en el momento de conectar el cliente con el servidor, aun cambiando los puertos del tomcat y entre otros puertos, intentando por todo los medios no se logra el objetivo y se da por terminado su interacción con Alfresco. El tercero Gestor Documental es Nuxeo, la descarga se hizo desde su página oficial no se genera ningún inconveniente en su instalación, tiene una interfaz grafica amigable, segura, con roles para usuario, entre otras opciones, es otra elección para implantar en una organización o para personas que desean almacenar, compartir o consultar la información más importante, no se tuvo 52 problemas al conectar el cliente con el servidor, teniendo en cuenta el problema con OpenKM se cambió los puertos para su funcionamiento y se logra el objetivo final. El cuarto y último Gestor Documental es ORFEO, la descarga e instalación no se efectúa propiamente desde un software, ya que este es un sistema de distribución GNU/LINUX, se presentaron muchos problemas y no se logró realizar instalación por consola, en distribuciones como Ubuntu 12.4, Ubuntu 11.4 y Debian 6, los manuales de instalación no fueron de mucha ayuda, no se obtuvo mucha información para la instalación y la única solución más conveniente fue descargar un imagen ISO del sistema operativo Ubuntu, que realizó la empresa SKINATECH, en este se tiene instalado Orfeo, se realiza las pruebas y se consiguió alcanzar la conexión del cliente con el servidor y fue la única solución que se obtuvo con ganancia. 12. ANEXO A: 7 RECOMENDACIONES A TENER EN CUENTA PARA SELECCIONAR UN SOFTWARE DE GESTIÓN DOCUMENTAL La buena gestión de la información en una empresa es algo fundamental que mal gestionada pueda traer desastrosas consecuencias. Los documentos críticos de una empresa, los contratos, las facturas, las escrituras, entre otros, son la base de conocimiento del negocio y de las relaciones que se mantiene en el entorno. Además, si todo va bien, con el crecimiento de la empresa y el uso cada vez más importante de información en formato digital proveniente de Internet, correos 53 electrónicos, documentos ofimáticos, entre otros, la información crecerá y lo hará de forma exponencial. Por tanto la centralización y la organización de esta documentación se hacen vitales para manejar, con todo esto se tiene la opción de implantar un software de gestión documental que ayude a gestionar esa información, pero la selección de este software no se puede hacer a la ligera si no quiere tener resultados desesperantes, se recomienda tener en cuenta al menos los siguientes 7 puntos: FACIL DE MANEJAR Para algunos empleados, especialmente aquellos que no están muy familiarizados con el uso de documentos digitales, se pueden beneficiar del uso de un software que les ayude guiándoles por los diferentes procesos de captura, indexación, acceso y gestión de la información. Para asegurarse de esto pregunte a sus candidatos a proveedores cosas como: ¿El software tiene una interfaz fácil de usar y personalizable para maximizar la productividad dependiendo del perfil de cada usuario? ¿Se puede acceder de forma segura a través de Internet? ¿Tiene el usuario que recordar diferentes contraseñas o puede trabajar con una contraseña única en todos los sistemas? Esto es lo que se llama single sign-on. ¿Tiene funciones de ayuda y tips básicos para ayudar a los usuarios en las tareas básicas? ¿Permite integración con el resto de software ofimático que el usuario utiliza todos los días? SEGURIDAD Los problemas derivados de cambios de normativas acerca de a qué tipo de información puede acceder cada perfil de usuario, deben ser solucionados fácilmente con este tipo de software con un cambio de permisos en la 54 configuración de los usuarios, se tendría que hacer que se cumpliera de inmediato la nueva norma. De la misma manera un cambio de roles de usuarios en la organización también debería ser fácilmente implementado. A lo que antes no podía tener acceso en el momento sí podrá hacerlo y al revés. Si antes no podía dar su aprobación en un determinado paso de un workflow, se podrá hacer. Y si antes no podía estampar su firma digital, puede que en este momento si se realice efectivamente o lo mismo en lo referente a impresoras a las que se puede lanzar documentación o documentos que se pueden descargar, entre otros. BUSQUEDA DE INFORMACIÓN ¿Existen plantillas personalizables para estandarizar las búsquedas de la documentación de nuestra empresa? ¿Existen menús desplegables con diferentes opciones que permitan a los usuarios inexpertos una indexación fácil de la documentación? ESCALABLE A FUTURAS NECESIDADES Las necesidades que se tiene hoy pueden ser totalmente diferentes a las que se tenga dentro de dos o tres años. Tal vez hoy está interesado en gestionar solo recursos humanos y cuentas a pagar, pero mañana se necesitara gestionar la totalidad de la información de la empresa: Pensar en las posibilidades de integración del software propuesto con todas las aplicaciones que se utilizan en la empresa. Aunque en estos momentos no se vaya a integrar. ¿Se encuentra parte de la información de la empresa dispersa en diferentes sistemas? 55 POLITICAS DE RETENCIÓN DE DOCUMENTACION Dependiendo de la actividad, puede que esté afectado por políticas de retención de documentación, que obliguen a guardar documentación durante muchos años, incluso permanentemente, aunque esta posiblemente no vaya a ser consultada. Su gestor documental debe de ser capaz de gestionar esto con agilidad, guardando estos documentos por separado pero manteniendo las posibilidades de acceso si fuera necesario. De igual forma el gestor documental debe facilitar la destrucción confidencial de documentación digital en su fecha prevista. Resumiendo, el gestor documental debe permitir migración, depuración y destrucción de documentos dependiendo de las políticas de retención que le afecten. GESTION DE E-MAILS Una mala gestión del correo electrónico obstaculiza gravemente la productividad cuando por ejemplo un empleado se va de vacaciones y sus correos quedan atrapados en las carpetas personales. Puede que allí haya información crítica, archivos adjuntos importantes como contratos u ofertas de proveedores o a clientes, que no van a poder ser encontrados hasta que el empleado no acuda a el puesto de trabajo. Asegúrese que la solución elegida incluya un componente de gestión de correo electrónico que indexe, archive y permita búsquedas en mensajes y archivos adjuntos. ADMINISTRACION Y SOPORTE SENCILLO Tener en cuenta que aunque el personal actual de informática sea capaz de poner el sistema en funcionamiento, este debe de ser mantenido a lo largo del tiempo, El personal de TI puede cambiar y el nuevo personal debe de ser capaz de entender 56 rápidamente como realizar cambios de jerarquías de usuarios, aplicar nuevas normativas de acceso a documentos o implementar nuevas funcionalidades que en estos momentos quizás usted no necesite. Tener en cuenta al menos los siguientes puntos: Es importante que se permita una actualización centralizada, en lugar de tener que ir realizando múltiples actualizaciones por los diferentes componentes del sistema de gestión documental. Esto permite implementaciones y actualizaciones más rápidas y acelera por tanto el ROI. Si el software es fácil de utilizar, dispone de ayuda y tips en línea, se reducirá los costes de soporte y conseguirá que en muchos casos el propio usuario sea capaz de solucionar sus propios problemas. Ver si es posible que los usuarios puedan recibir soporte remoto. Evitará tiempos muertos.7 13. ANEXO B: ESPECIFICACIONES E INSTALACION DE LOS SOFTWARE LIBRE DE GESTION DOCUMENTAL OPENKM ¿Qué es? OpenKM es una aplicación web de gestión documental que utiliza estándares y tecnologías Open Source la cual proporciona el control de versiones, metadatos, escaneo, comentarios, foros sobre el programa, workflow (flujos de trabajo), entre otras. Esto permite una fácil comunicación que conecte a las personas a otras personas, la información a la información y las personas a la información, ayudando a gestionar de forma más eficiente la inteligencia colectiva que reside en los recursos de la compañía. 7 Gedsa. (06 de 2013). 7 cosas a tener en cuenta para seleccionar un software de Gestión Documental. Recuperado el 12 de 10 de 2015, de Gedsa Ingenieria Documental: http://www.gedsa.es/2013/06/7-cosasa-tener-en-cuenta-para-seleccionar-un-software-de-Gestion-Documental.html 57 OpenKM integra en una sola aplicación fácil de usar todas las funcionalidades para colaborar, gestionar y buscar documentos, con el fin de mejorar la productividad en forma de prácticas compartidas y hacer que mediante la interfaz intuitiva el usuario pueda recopilar información digital, colaborar en la organización de documentos y proyectos lo que a la vez permitirá a la empresa a capitalizar el conocimiento acumulado a través de la localización de documentos y fuentes de información de forma sencilla y rápida.(OpenKM Knowledge Management) ¿Qué documentos permite indexar? OpenKM permite al usuario subir, trabajar y almacenar archivos creados en Open Office, la suite ofimática de Microsoft (MS Excel, MS PowerPoint, MS Word), documentos cuyas extensiones sean PDF, HTML, XML, TXT, RTF, JPEG EXIF y MP3 ID3.. Arquitectura OpenKM: 58 ILUSTRACION 1: Arquitectura OpenKM8 Para implementar este software se requiere conocer un poco de la forma en que esté constituido para saber si se ajusta completamente a las necesidades de la Unidad Dentro de la arquitectura lo más relevante es: Interfaz (Color verde): El usuario accede a la aplicación a través de un navegador (Firefox, Chrome o Explorer), además posee una integración con dispositivos móviles, aunque con una limitación de las herramientas. API (Color Azul- Superior Derecho): Es un “OASIS” estándar abierto que permite la interconexión del usuario y la gestión de los documentos del repositorio, a través de la WEB. Spring Security (Color Rojo superior): Es el módulo más importante (a nivel de seguridad), ya que en esta capa es donde se controla el acceso a los usuarios. El proceso de autentificación se puede dar a través de un servicio central de Autentificación o a través de una base de datos. Core (Color Rojo- mitad): Implementación de la lógica de la gestión y procesamiento de documentos, carpetas, registros y correos electrónicos. Storage (Color Azul- Inferior izquierdo): El almacenamiento de datos se hace en una base de datos (Compatibilidad con varias bases de datos). Buscador (Color Amarillo claro- Inferior): utiliza como motor de búsqueda: LUCENE, su búsqueda la realiza sin importar si los documentos son o no binarios. Antivirus: (Color Amarillo- derecha mitad): OpenKM puede integrar con la mayoría de antivirus, protegiendo los documentos del repositorio y el computador de los usuarios. 8 OpenKM. (s.f.). OpenKM. Recuperado el 05 de 11 de 2015, de Diagrama de la arquitectura del sistema: https://www.openkm.com/es/arquitectura.html 59 Catálogo y Metadatos (Color Amarillo-Inferior): Permite leer e identificar el código de barras de los documentos, y ampliar su capacidad. Estadísticas e Informes (Color Amarillo-Inferior derecho): a través de esta aplicación, el administrador controla el estado de la aplicación.(OpenKM Knowledge Management) Requerimientos del Hardware: Para todas las versiones de OpenKM es necesario, como mínimo Intel Pentium 4 y 256 MB de memoria RAM. OpenKM Small, con una capacidad para menos de 25 usuarios, y un repositorio de 10 a 60 GB, requiere de: -1GB de RAM. -Dual Core 2 (1,86 GHz). -150 a 200 GB de Hard Disk. OpenKM Medium, capacidad para más de 50 usuarios, y un repositorio de más de 150 GB, necesita: -2GB de RAM. - Quad Core (2,2 GHz). - 200 a 500 GB de HD. OpenKm (Virtualized Server), para menos de 50 usuarios, y un repositorio de 20 a 50 GB, requiere: - 1 GB de RAM. - Due Core 2 (1,86 GHz). - 80 a 100 GB de HD.(OpenKM Knowledge Management) No existe límite para subir ficheros, más que la capacidad del hardware Si se desea limitar el tamaño máximo a subir esto se puede hacer modificando el OpenKM.cfg; Para gestionar grandes repositorios OpenKM se puede configurar en una arquitectura de clúster. Los sistemas operativos compatibles con el software son: GNU Linux (recomendado, por su mayor estabilidad), Windows desde su versión XP, Solaris y Mac OS. 60 El almacenamiento de los repositorios, se hace a través de un directorio o cualquier Sistema de gestión de Base de Datos (SGBD) como: Oracle, PostgreSQL, MySQLentre otros. En un principio se creyó que una desventaja de utilizar OpenKM (versión instalación) sería la dificultad de acceder a los repositorios, desde cualquier computador, pero OpenKM permite la integración con Dropbox. ¿Cuántos usuarios podrían estar usando OpenKM simultáneamente? ¿Hay algún máximo establecido o depende de la capacidad (hardware) del servidor?, En realidad no hay ningún límite de usuarios simultáneos, sólo se requiere usar un servidor con las características necesarias, (Los requerimientos de Open son muy bajos en cuanto a Software). (OpenKM Knowledge Management) Generalidades de OpenKM Características generales: Administración: Todas las operaciones que realiza el usuario se almacenan en una base de datos (Registro detallado). Ver Perfiles de usuario (Documentos y funciones a las que puede acceder el usuario). Desbloquear, editar y retirar documentos. Programador de tareas y tareas inteligentes. Acceso al Repositorio. Seguridad: Autentificación del Usuario (Este servicio se da a través de una autentificación centralizada, o contra una base de datos, en la que se encuentren registrados los usuarios) Tiene soporte para gestión de diversas bases de datos -al mismo tiempo-, pero por defecto viene con una base de datos integrada. 61 Controla permisos de carpetas y documentos. Registro de todas las operaciones que realiza el usuario. Fiabilidad: Por defecto todos los archivos que maneje OpenKM se guardan en la carpeta $ TOMCAT_HOME / repositorio. Por dicha razón si se desea hacer un backup, se deberá realizar una copia de esta carpeta, En caso de que se haya configurado otra base de datos es necesario hacer respaldo de esa carpeta. Si un día se decide cambiar de DMS (Software de Gestión Documental), no hay de qué preocuparse, desde el menú de administración se dispone de la opción de exportar todo el repositorio en una carpeta del servidor y luego desde el nuevo DMS poder importarla. En algunos casos al arrancar el sistema la base de datos se formatea y se encontró que se debe modificar el parámetro hibernate.hbm2ddl para que la base de datos no se resetee al arrancar el servicio. Gestión de documentos: Documentos personales y papelera de reciclaje para cada usuario. Extracción inteligente de palabras clave. Conversor de texto a audio. Servicio de chat. Pre visualización de documentos. (AutoCAD, MS office family, Open office family, ficheros de PDF, videos, sonidos e imágenes,DICOM); La opción no está disponible en la versión a prueba. Características (cliente web) Ofrece una interfaz sencilla y fácil de manejar 62 Funciona con los navegadores más usados (Firefox, Chrome, Safari, Explorer). Posee un Antivirus, que analiza todos los documentos que se suben al repositorio. Restringe permisos de roles (Aplica también para la versión instalación) Traducción a varios idiomas (Según OpenKM) Android & IPhone soportan algunas funcionalidades. Carga masiva de archivos ZIP Filtros de Búsqueda, básicos y avanzados. Permite hacer foros en torno a los documentos publicados.(OpenKM Knowledge Management) Experiencia OpenKM Para comenzar a trabajar con el software se realizó la instalación de la versión openkm-6.3.0-community-windows-installer. Se descargó de la siguiente página http://www.openkm.com/es/download-espanol.html, en el anterior enlace se encuentra el software para las diferentes plataformas, con esta versión instalada se realizaron pruebas básicas como lo son el ingreso a la aplicación en distintos navegadores (Firefox, Chrome e Internet Explorer), creación de usuarios y algunas interacciones. Ingreso Para iniciar la aplicación se debe reiniciar el equipo al estar el equipo para su se debe ejecutar el Tomcat primero, la cual se hace buscando el ícono en el escritorio llamado “StartOpenKM” creado por defecto o de no estar disponible ahí es necesario buscarlo en el menú de inicio (variando del sistema operativo instalado en la máquina), ese será lo primero de hacer antes de entrar al navegador. 63 Luego de esto, ingresa por su navegador de internet – entre los ya especificados con anterioridad – a la dirección: < http://IP del servidor: 8080/OpenKM/>. Para la práctica se tuvo muchos inconvenientes con el puerto 8080, la cual se estaba usando en otro software y se tomó la decisión de cambiar el puerto 8080, por el puerto 5050 de la siguiente manera. Ingresar a la carpeta donde quedo guardado el programa openkm se encuentra en la ruta C:\openkm-6.3.0-community , ingresamos a la carpeta tomcat, se ingresa a la carpeta conf y se encuentra el archivo server damos clic derecho y editar (vease en la ilustracion 2). ILUSTRACION 2: Cambiar puerto Para acceder se debe reiniciar el equipo, al estar el equipo para su uso se debe ejecutar el Tomcat nuevamente, al ingresar al navegador se utilizó el usuario que OpenKM tiene por defecto: okmAdmin con su password “admin" el cual tiene un rol de administrador (tiene los derechos de control, creación de usuarios, creación y edición de archivos, entre otros). En este primer intento se reconoció la interfaz 64 de usuario (véase en la ilustración 3) y se comenzó a comprobar la forma de indexar archivos y las extensiones que se permiten subir. A su vez se percibe que las especificaciones técnicas que manejan son las del equipo que en este caso se usó como “servidor”. ILUSTRACION 3: Interfaz de usuario de OpenKM Creación de usuario-concesión de permisos Luego de subir archivos , se procedió a crear un usuario con un rol limitado (rol de usuario) para verificar si se podía conectar desde otro equipo y las acciones que éste puede realizar dependiendo de las asignaciones determinadas por el administrador, que en este caso, fueron la remoción del permiso de eliminar y editar archivos. Para crear usuarios es necesario entrar con un rol de administrador: 65 En la pestaña de administrador se ubica el logo designado para usuarios donde se desplegará la cantidad de usuarios que se encuentran habilitados y sus respectivos roles, correo y si se encuentra activo o no. En el rótulo de la lista de usuarios aparece un ícono para adicionar usuarios . Cuando se selecciona esta opción aparece un formulario con los respectivos datos a ingresar y define el rol de dicho usuario. ILUSTRACION 4: Formulario para crear usuarios Al completar los datos el usuario está creado y está listo para usarse desde otra máquina teniendo en cuenta que se debe configurar con la dirección del equipo utilizado como servidor. Por ejemplo, en este caso se escribe la IP del equipo (<http://192.168.0.12:5050/OpenKM/) para que acceda a los documentos ya guardados. 66 ILUSTRACION 5: Ingreso usuario chrome ILUSTRACION 6: Ingreso usuario Explorer ALFRESCO 67 ¿Qué es? Alfresco es una aplicación Open Source para la Gestión de Contenido Empresarial (ECM), que permite almacenar información estructurada en múltiples formatos (Word, Excel, multimedia, entre otros.), junto con sus metadatos (propiedades del documento). ¿Qué documentos permite indexar? Alfresco gestiona todo tipo de documentos, desde archivos de texto simples a archivos binarios pasando por documentos ofimáticos. Con ciertos tipos de documentos, Alfresco puede analizar el archivo para recuperar metadatos (título, descripción) que serán archivados en los metadatos del documento Alfresco. Esto se da especialmente con archivos Word, Excel, PowerPoint, PDF. Desde un punto de vista técnico la aplicación utiliza herramientas como PDFBox y Open Office que permiten leer, escribir e incluso convertir los archivos en formatos diferentes. De este modo podremos convertir automáticamente cualquier documento Office en PDF o un PowerPoint en Flash. Alfresco permite crear sobre la marcha documentos de texto y HTML directamente a partir del backoffice utilizando un editor WYSIWYG integrado (TinyMCE) tal y como se muestra en la captura de pantalla (OPEN RED SOLUCIONES DE SOFTWARE LIBRE)9 Arquitectura Alfresco: 9 Openred . (s.f.). Gestión Documental Alfresco ECM. Recuperado el 28 de Septiembre de 2015, de Openred Soluciones de Software Libre: http://www.openred.es/index.php/alfresco 68 ILUSTRACION 7: Alfresco arquitectura La arquitectura de Alfresco es la típica de una aplicación web basada en JAVA: ILUSTRACION 8: Alfresco basado en java Los usuarios acceden típicamente mediante un navegador a la interfaz de usuario de Alfresco (gestión documental) o Share (entorno colaborativo). Estas interfaces pueden variar en función de los componentes instalados (WCM, RM) para adecuarse a la lógica de estos. 69 Todos los documentos subidos al repositorio de Alfresco con toda su información adicional (Metadatos) se persisten en la capa de almacenamiento según su naturaleza: Contenido -> Sistema de Ficheros Metadatos -> Base de datos Tal como muestra el diagrama se refleja que Alfresco separa a nivel lógico el repositorio (lugar donde se almacenan los documentos) de las aplicaciones que acceden a él (DM, RM, WCM, SHARE). A nivel físico tenemos únicamente 2 ficheros war: Alfresco.war (DM + Repositorio) Share.war (SHARE) A nivel lógico sería posible deshacerse de la interfaz de Alfresco y programar cada uno su propia interfaz o acceder al repositorio a través de una tercera aplicación esto es posible gracias a los FoundationServices de Alfresco, los cuales permiten acceder al contenido del repositorio y realizar acciones sobre él. Se dispone entre otros de servicios de autenticación, búsquedas, permisos, contenido. Entre otros). El listado completo de los servicios se puede obtener dentro del fichero publicservices-context.xml. 10 10 Adformacion. (s.f.). Repositorio Alfresco. Recuperado el 28 de Septiembre de 2015, de Curso de Gestión Documental con Alfresco: http://www.adrformacion.com/cursos/alfresco2/leccion1/tutorial6.html 70 ILUSTRACION 9: Alfresco repositorio Estos servicios son la capa pública más baja de la API de Alfresco son publicados a través de una interfaz JAVA. Cada uno de ellos está mapeado a un componente que a modo de caja negra es capaz de ejecutar el código necesario para obtener los resultados de los servicios solicitados. Además disponemos de un registro de servicios que a modo de lista permite obtener los diferentes servicios disponibles. Dado que Alfresco usa el framework de Spring, cada uno de estos servicios y componentes está configurado mediante ficheros XML. En este artículo puede encontrar cual es la estructura de estos ficheros y como funciona spring dentro de Alfresco. Las 3 acciones más típicas que realiza Alfresco serán las de subir, bajar y buscar documentos. Estas acciones se realizan mediante 3 de estos servicios apoyándose también en otros elementos ya existentes y probados dentro del mundo Open Source como Hibernate o Lucene: 71 ILUSTRACION 10: Acciones Alfresco NodeService: En alfresco todos los elementos son tratados como nodos pero con diferentes propiedades. Por ejemplo, un fichero es un nodo con ciertas propiedades o metadatos como son el título, autor, fecha de creación e incluso el propio contenido no es más que un metadato. A su vez un espacio es también un nodo que tiene una asociación del tipo "contiene a" con otros nodos. El servicio encargado de trabajar con los nodos será el NodeService y toda la información sobre los nodos se almacenará en base de datos. ContentService: El contenido suele estar referido a los ficheros binarios que se sube o se crea dentro de Alfresco, es decir el fichero Power Point, Word o PDF o cualquier tipo MIME. Estos ficheros binarios se almacenarán en el sistema de ficheros del servidor (contentstore) siguiendo una estructura de directorios ordenada por fecha. Este servicio se encargará de la leer o escribir el contenido en el repositorio así como de transformarlo de un tipo MIME a otro. 72 SearchService: Cada vez que se sube contenido a Alfresco este es indexado de forma automática, tanto sus metadatos como el contenido de forma que no solo podemos buscar mediante el nombre del fichero o su autor sino también por el contenido. Este servicio utiliza por debajo Apache Lucene para el indexado y las consultas. Los índices generados por Lucene se almacenan también en el sistema de ficheros. (ALFRESCO)11 Requerimientos del Hardware: Número de usuarios Hasta 50 usuarios concurrentes o 500 usuarios casuales --------1 GB de RAM para la JVM 2 procesadores o un procesador Dual Hasta 100 usuarios concurrentes o 1000 usuarios casuales -------- 1 GB de RAM para la JVM 4 procesadores (o procesadores con múltiples núcleos) Hasta 200 usuarios concurrentes o 2000 usuarios casuales -------- 2 GB de RAM para la JVM 8 procesadores (o procesadores con múltiples núcleos) Generalidades de Alfresco Características generales: Organiza y facilita la gestión de contenidos de todo tipo: Documentos ofimáticos, presentaciones, imágenes, XML, multimedia, entre otros. 11 Alfresco. (s.f.). Alfresco Repository Architecture. Recuperado el 28 de Septiembre de 2015, de https://wiki.alfresco.com/wiki/Alfresco_Repository_Architecture 73 Gestiona el ciclo de vida de los contenidos: Crear, compartir, versionar, aprobar, publicar, retirar, archivar. Facilita el trabajo colaborativo: Foros, Notificaciones, RSS, Blogs, Wiki, ?Social Computing?. Provee un repositorio fuente basado en últimas tecnologías y estándares, altamente escalable.(ALFRESCO)12 Exploración Alfresco Para comenzar a trabajar con el software se realizó la instalación de la versión alfresco-community-5.0.d-installer-win-x64. Se descargó de la siguiente página https://www.alfresco.com/alfresco-community-download, en el anterior enlace se encuentra el software para las diferentes sistemas operativos con esta versión instalada se ingresa un usuario y se le dan permisos. Ingreso A la hora de instalar esta aplicación y desde el comienzo, podemos configurar los puertos para no generar conflicto con otras aplicaciones que estén utilizando el puerto de defecto el 8080 elegimos la opción avanzada donde se configura las propiedades de servicio y los puertos de servidor (véase en las ilustraciones 11 y 12). Solamente haríamos los cambios en los puertos de las dos ilustraciones y con el resto se dejaría por defecto 12 Alfresco. (s.f.). JVM Tuning. Recuperado https://wiki.alfresco.com/wiki/JVM_Tuning 74 el 28 de Septiembre de 2015, de ILUSTRACION 11: Opciones de configuración ILUSTRACION 12: Configuración del puerto tomcat Cuando se finaliza la instalación él se redirige a una página de inicio de sesión, cada vez que iniciamos el servidor, debemos arrancar la aplicación se debe 75 buscar en el menú de inicio (variando del sistema operativo instalado en la máquina), ese será lo primero de hacer antes de entrar al navegador. Luego de esto, ingresa por su navegador de internet – entre los ya especificados con anterioridad – a la dirección: < http://192.168.0.12: 5050/share/>. Para nuestra práctica el inconveniente fue conectar el cliente al servidor alfresco. Para acceder se utilizó el usuario de Alfresco “admin” con su password que se creó desde la instalación “****" el cual tiene un rol de administrador (tiene los derechos de control creación de usuarios, creación y edición de archivos, entre otros). A su vez se percibe que las especificaciones técnicas que manejan son las del equipo que en este caso se usó como “servidor”. ILUSTRACION 13: Interfaz Alfresco Creación de usuario-concesión de permisos 76 Luego de subir archivos, se procedió a crear un usuario con un rol limitado (rol de usuario) para verificar si se podía conectar desde otro equipo y las acciones que éste puede realizar dependiendo de las asignaciones determinadas por el administrador, que en este caso, fueron la remoción del permiso de eliminar y editar archivos. Para crear usuarios es necesario entrar con un rol de administrador:En la pestaña de herramientas de administración se ubica en usuarios y grupos, elegimos usuarios donde se desplegará la cantidad de usuarios que se encuentran habilitados y sus respectivos roles, correo y si se encuentra activo o no. En el botón nuevo usuario dar clic para adicionar usuarios, Cuando se selecciona esta opción aparece un formulario con los respectivos datos a ingresar y define el rol de dicho usuario. ILUSTRACION 14: Formulario para crear usuarios Al ingresar desde el cliente tuvimos inconvenientes no reconoce el servidor solamente se puede visualizar desde el servidor el cliente 77 ILUSTRACION 15: Problemas con el cliente NUXEO ¿Qué es? Nuxeo es un software que permite implementar con gran funcionalidad un repositorio documental corporativo. Aporta soluciones a las necesidades primarias de gestión documental de las empresas, permitiendo gestionar cómodamente documentos mediante control de versiones, flujos de trabajo asociados, publicación remota o búsqueda avanzada a texto completo, además de integración con suite ofimáticas habituales como Microsoft Office y Open Office. Además, a través de Nuxeo DAM también se ofrece soporte para imágenes y vídeos. Su implementación es sencilla si lo que se quieren cubrir son necesidades no muy específicas y además al estar desarrollado sobre estándares abiertos, cuenta de entrada con la facilidad de ampliar su funcionalidad mediante desarrollo y resulta interoperable con terceros lo cual pone al alcance de un mayor número de 78 técnicos el conocimiento necesario para trabajar sobre él, ganando así en productividad. El que sea una plataforma significa que contempla el crecimiento futuro (fase beta en positivo) y además lo ventajoso es que su adaptación a propósitos específicos no es tan costosa como en el caso de Sharepoint, Documentum, IBM FileNet, u otras soluciones cerradas.(ATENTO) ¿Qué documentos permite indexar? Archivo permite guardar cualquier tipo de fichero (Microsoft Ofce, OpenOfce, PDF, Multimedia, entre otros.). Nota: Permite guardar texto mediante un editor de texto rico, proporcionado por la herramienta. Carpeta: Permite organizar el contenido de forma jerárquica. Imagen: Permite guardar imágenes y tratar con ellas. El sistema de indexación incluye el contenido de los documentos permitiendo buscar dentro del contenido de ficheros en formatos PDF, DOC, PPT, XLS, ODT, entre otros. Arquitectura Nuxeo 79 ILUSTRACION 16: Nuxeo plataforma ILUSTRACION 17: Nuxeo EMC Requerimientos de Hardware 80 Nuxeo corre sobre Linux, Windows y Mac OS X. Además los requisitos Hardware son: RAM: 2 GB es la mínima cantidad de memoria para ejecutar Nuxeo. CPU: Intel Core 2, equivalente o superior. Disco Duro: Para la instalación de Nuxeo se requieren menos de 300 MB de disco duro.(ATENTO) Generalidades NUXEO Características generales: Captura Arrastrar y saltar Simplemente arrastrando y soltando desde el escritorio al navegador web permite a los usuarios importar cualquier documento estándar ofimático a Nuxeo DM (PDF, Microsoft Office, OpenOffice.org). Esto supone grandes beneficios de productividad para los trabajadores que utilizan contenido de una variedad de fuentes. Captura basada en formularios Nuxeo DM apoya la importación de documentos basada en formularios, asegurando metadatos corporativos críticos asignados a los contenidos mediante sencillas plantillas. Captura mediante correo electronico El correo electrónico y los archivos adjuntos pueden ser incluidos en Nuxeo DM garantizando que la comunicación empresarial sea capturada clasificada y compartida en los espacios de trabajo adecuados. Integración de aplicaciones de escritorio 81 Ahorrar tiempo y organizar su almacenamiento de documentos con mayor eficacia: Nuxeo DM le permite crear editar y almacenar sus archivos de oficina directamente desde Microsoft Office u OpenOffice. Compartir y colaborar Espacio de trabajo de colaboración El espacio de trabajo de Nuxeo DM permite a los usuarios colaborar en documentos con los colegas y los miembros del equipo independientemente de su ubicación. Los usuarios pueden compartir sus mejores prácticas trabajar juntos en proyectos, discutir las revisiones de los contenidos en un espacio seguro de colaboración organizada. El área de trabajo Nuxeo DM es la herramienta ideal para facilitar la gestión de los documentos activos y archivados. Microsofsharepoint y la integración de la oficina Ahorrar tiempo y eliminar la confusión y la reproducción de contenido empresarial: Nuxeo DM le permite crear, editar y clasificar los diferentes tipos de documentos comunes directamente desde Microsoft Office. El apoyo WSS garantiza el acceso constante a contenido de Sharepoint. La integración natural con Windows Explorer garantiza a los trabajadores que puedan utilizar los hábitos de navegación conocidos para acceder al contenido dentro de Nuxeo DM y realizar operaciones de archivo comunes. Cliente en la línea El cliente en línea para uso sólo de lectura es el compañero perfecto para los clientes de acceso remoto o móvil, ya que permite el acceso permanente y seguro a los contenidos cuando una conexión de red no está disponible con un servidor web ligero incorporado, el cliente en línea garantiza una 82 experiencia de usuario muy similar a la que los usuarios están acostumbrados su interfaz de navegador web estándar. Debates Los debates permiten a los usuarios crear foros interactivos basados en los documentos y sus contenidos. Los usuarios pueden compartir ideas, revisar las ideas, colaborar en la creación de nuevos documentos. Vista preliminar de documento Nuxeo DM le permite pre visualizar todos sus documentos ofimáticos dentro del navegador web. Simplifica actividades rutinarias como la búsqueda rápida para un simple vistazo del contenido sin perder tiempo en descargarlo y sin la necesidad de abrirlo en una aplicación del escritorio (como Microsoft Office). Anotaciones de contenido La función de anotación de contenidos le permite añadir notas directamente a un documento ofimático o a un archivo multimedia sin necesidad de modificar el contenido del documento original. Es similar a una nota adhesiva, esta característica le permite compartir ideas o un comentario con otros usuarios de Nuxeo DM al tiempo que colaboran en el contenido común. Gestión de registro Nuxeo DM proporciona el marco para administrar la retención y el cumplimento legal del contenido y los documentos. Nuxeo DM guarda y archiva todas las acciones realizadas en el contenido en una historia auditable, permite bloquear el contenido y asegura granulares ACL (acceso a la lista de control) de seguridad por usuario grupo o función, y proporciona una gestión del ciclo de vida basado en fechas o eventos. 83 Relaciones de contenido Las características de las relaciones de Nuxeo DM se utilizan para describir los vínculos semánticos que pueden existir entre los documentos, tales como referencias cruzadas, entregas, traducciones u otros tipos de relaciones que indiquen que un documento tiene un impacto en otro. Cuadros de mando Los cuadros de mando personales proporcionan a los usuarios un resumen de las acciones, flujos de trabajo y documentos que son fundamentales para su trabajo actual. Las tareas los documentos publicados recientemente, los recordatorios, las fechas de vencimiento se presentan en una sola ubicación para manejar fácilmente las actividades centradas en el contenido que hay que hacer. Publicar en la página web Compartir contenido con un público más amplio se hace simple con la posibilidad de publicar en sitios web. Procesos y análisis Ciclos de vida del documento Calificar cada etapa del ciclo de vida del documento, desde la creación hasta el archivo. Nuxeo DM permite establecer etapas y tareas para satisfacer requisitos del ciclo de vida simples y complejos. Flujo de trabajo Nuxeo DM incluye una función de flujo de trabajo intuitiva que permite a los usuarios configurar fácilmente tareas sencillas o tareas con varias etapas. El flujo de trabajo ayuda a que el contenido fluya a través de contenidos estructurados o procesos de negocios ad hoc. Los flujos de trabajo se pueden 84 establecer rápidamente, guardándose para su posterior reutilización y con una plantilla para garantizar la coherencia de los procesos a través de los equipos. Pre visualización Nuxeo DM le permite pre visualizar todos sus documentos de oficina dentro del navegador web. Simplificar las actividades de rutina por un rápido vistazo al contenido sin perder el tiempo en descargarlo a simple vista o que necesite abrirlo en una aplicación del escritorio. Anotaciones de contenido La función de anotación de contenidos le permite añadir notas directamente a un documento ofimático o archivo multimedia, sin necesidad de modificar el contenido del documento original. Es similar a una nota adhesiva, esta característica le permite compartir ideas o un comentario con otros usuarios de Nuxeo DM a la vez que colaboran en el contenido compartido. Auditoria Nuxeo DM mantiene un historial de todas las acciones realizadas en los documentos. Tanto las actividades del usuario como las actividades que el sistema genera son capturadas y almacenadas, lo que permite una visibilidad completa de cómo el contenido están siendo utilizado. Las organizaciones que gestionan documentos inestables del sistema o tienen la obligación de cumplir con mandatos de cumplimiento legislativo o reglamentario utilizan la funcionalidad del histórico para verificar el contenido. Cuadros de mando Los cuadros de mando personales proporcionan a los usuarios un resumen de las acciones, flujos de trabajo y documentos que son fundamentales para su trabajo actual. Las tareas, los documentos publicados recientemente, los recordatorios, las fechas de vencimiento entre otros. se presentan en una sola 85 ubicación para manejar fácilmente las actividades centradas en el contenido.(Athento). Experiencia NUXEO Para comenzar a trabajar con el software se realizó la instalación de la versión nuxeo-7.4. Se descargo de la siguiente pagina http://www.nuxeo.com/downloads/#downloads, en el anterior enlace se encuentra el software para las diferentes plataformas, con esta versión instalada, se realizaron pruebas básicas como lo son el ingreso a la aplicación en distintos navegadores (Firefox, Chrome e Internet Explorer), creación de usuarios y algunas interacciones. Ingreso Al finalizar la instalación de esta aplicación, deja un acceso directo y se ejecuta y nos aparece una pantalla (véase en la ilustracion18), damos clic en la opción “Open in browser”, donde remite a una página para empezar la configuración de nuxeo por medio web (véase en la ilustración 19), recordarles si tienen otro servidor con el mismo puerto no dará resultado tener el gestor documental 86 ILUSTRACION 18: Nuxeo panel de control ILUSTRACION 19: Configuración de inicio Debemos asignarle la dirección IP del servidor (véase ilustracion20) 87 ILUSTRACION 20: Asignación IP del servidor Al haber finalizado la debida configuración de la plataforma Nuxeo y seleccionar cuales de los módulos que desea instalar. Si usted apenas está evaluando la plataforma Nuxeo, puede dejar las opciones por defecto, Conecte como administrador / administrador y empezar a interactuar. Ingresa por su navegador de internet – entre los ya especificados con anterioridad – a la dirección:< http://IP del servidor: 8080/nuxeo/>. Para acceder se utilizó el usuario del servidor “Administrator” con su password “Administrator " el cual tiene un rol de administrador (tiene los derechos de control, creación de usuarios, creación y edición de archivos, entre otros). 88 ILUSTRACION 21: Ingreso al servidor Nuxeo ILUSTRACION 22: Interfaz de usuario de Nuxeo Creación de usuarios-concesión de permisos Luego de subir archivos se procedió a crear un usuario con un rol limitado (rol de usuario) para verificar si se podía conectar desde otro equipo y las acciones que éste puede realizar dependiendo de las asignaciones determinadas por el 89 administrador que en este caso fueron la remoción del permiso de eliminar y editar archivos. Para crear usuarios es necesario entrar con un rol de administrador: En la pestaña el centro de administrador se da clic en usuarios y grupos, prosigue dando clic en crear un nuevo usuario donde se desplegará la cantidad de usuarios que se encuentran habilitados y sus respectivos roles, correo y si se encuentra activo o no. Cuando se selecciona esta opción aparece un formulario con los respectivos datos a ingresar y define el rol de dicho usuario. ILUSTRACION 23: Formulario para crear usuarios Al completar los datos el usuario está creado y está listo para usarse desde otra máquina teniendo en cuenta que se debe configurar con la dirección del equipo utilizado como servidor. Por ejemplo, en este caso se escribe la IP del equipo (<http://192.168.0.12:5050/nuxeo/) para que acceda a los documentos ya guardados. 90 ILUSTRACION 24: Ingreso usuario chrome ILUSTRACION 25: interfaz de cliente nuxeo 91 ILUSTRACION 26: Ingreso usuario Explorer ORFEO ¿Qué es? Es un Sistema de Gestión Documental (SGD) desarrollado en Colombia por la Superintendencia de Servicios Públicos bajo la Licencia Pública General GNU/GPL la cual está orientada principalmente a proteger la libre distribución, modificación y uso de software. Este SGD emplea las normas técnicas y prácticas para la administración de los flujos documéntales y archivísticos con el fin de garantizar la calidad de los procesos documentales dentro de una organización. Orfeo es un sistema web que le permite a la organización acceder fácilmente mediante cualquier navegador a través de Internet o Intranet para gestionar la trazabilidad de los documentos, evitando así en un gran porcentaje el manejo de documentos físicos.(Orfeo libre ) 92 ¿Qué documentos permite indexar? Orfeo permite incorporar la gestión de los documentos a los procesos de cualquier organización automatizando procedimientos con importantes ahorros en tiempo, costos y recursos tales como toners de impresora, papel, fotocopias, entre otros, así como el control sobre los documentos. Además de la SSPD, Orfeo está siendo utilizado y/o implementado en un sinnúmero de entidades tanto públicas como privadas que reúnen ya más de 15000 usuarios y está siendo estudiado su uso por parte de entidades y organizaciones en otras partes del mundo gracias a su filosofía de Software Libre. Esta herramienta puede instalarse en cualquier sistema Operativo (GNU/Linux, Unix, Windows,...) con diferentes bases de datos (PostgreSQL, Oracle y MS SQL Server), además maneja múltiples tipos de Formatos (ODT, XML, DOC) logrando así obtener independencia de plataforma tecnológica y reducción de costos en la implementación.(Orfeo Libre). Arquitectura Orfeo Estado actual: Considerando que el sistema no cuenta con una arquitectura escalable, hace que hoy día las labores de mantenimiento del sistema y la realización de ajustes demanden una gran cantidad de tiempo y recursos. Se han identificado las siguientes situaciones: No usa un framework de desarrollo que apoye la abstracción de funcionalidades básicas dentro de un aplicativo web. Modelo de datos inconsistente ya que existen tablas y campos que no se utilizan, faltan relaciones entre algunas tablas que permitan asegurar la consistencia de los datos. 93 Documentación pobre y desactualizada. El conocimiento depende de pocas personas lo que dificulta la divulgación para manejo, soporte y/o mantenimiento. El modelo de datos no contempla un modelo flexible de seguridad que incorpore el concepto de Roles y Usuarios. Gran dificultad para incluir nuevas reglas de acceso a funcionalidades asociadas a parámetros como: dependencia, características del documento (visibilidad, estado, tipo, entre otros.). Las labores de mantenimiento del sistema y la realización de ajustes demandan una gran cantidad de tiempo y recursos. Dificultad para integrar el sistema actual de Orfeo con otras aplicaciones. Duplicidad de los registros de las personas naturales y jurídicas en la base de datos del sistema de gestión documental. Dificultad para realizar modificaciones de los parámetros básicos.(lopez) ILUSTRACION 27: Funcionamiento ORFEO 94 Generalidades Orfeo Características generales Interfaz gráfica web fácil de usar similar a la de un correo electrónico. Digitalización de documentos. ORFEO posee un módulo de digitalización que genera imágenes de los documentos físicos en formato tiff y pdf. Permite la parametrización del proceso de radicación de documentos (entrada, salida, resoluciones, memorandos entre otros). Generar expedientes virtuales siguiendo los lineamientos técnicos y legales. Generación de reportes de gestión, niveles de producción, requerimientos respondidos entre otros. Agiliza las búsquedas de documentos y expedientes por diferentes campos de búsqueda 8fechas, usuarios, tipos de documentos entre otros). Gestión sobre el documento: reasignar, agendar modificar archivar incorporar en expedientes. Tipificar el documento (a partir de las tablas de retención documental).(Orfeo Libre). Experiencia Orfeo Para comenzar a trabajar con el software se debe tener en cuenta algunos aspectos que ayudara a la navegación de Orfeo. En el siguiente enlace se encuentra los manuales de instalación para las diferentes distribuciones. http://www.orfeogpl.info/wiki/Manuales_de_Instalacion En caso de que los manuales no sean de gran ayuda se puede descargar imágenes (iso) o máquinas virtuales, 95 en donde su contenido tiene su respectivo sistema operativo e instalado el sistema de gestión documental Orfeo, donde la empresa SKINATECH aliado con Orfeo nos deja a su disposición. http://www.orfeolibre.org/portal/index.php/decargas-y-enlaces/34kuane-livecd http://www.orfeolibre.org/portal/index.php/decargas-y-enlaces/30maquinas-virtuales La siguiente práctica se realizó con una imagen de un sistema Ubuntu 12.04.2 AMD64 que trae pre-instalada la versión 3.8.4 de OrfeoGPL. El archivo para descargar es uniso y se ejecutó en una máquina virtual (virtual box). http://wiki.orfeogpl.info/orfeogplive/orfeogplive_v01.iso Ingreso Antes de la instalación se debe revisar la bios setup, ya que la imagen iso es de 64 bits no de 32, para que no tengan inconvenientes con ejecutar la imagen, en varias ocasiones se presentó ese inconveniente a la hora de realizar la práctica y configurar la red del virtual box. 96 ILUSTRACION 28: Configuración Bios Ingresamos desde la maquina virtual y se ejecuta el iso ILUSTRACION 29: Ingreso maquina virtual Se presentará lo siguiente y se debe dar clic en el botón probar Ubuntu, no ejecutar el otro botón ya que se llevará a las instalación de Ubuntu. 97 ILUSTRACION 30: Opciones de ingreso Ubuntu Al ingresar mostrará el escritorio e ingresaran al terminal para visualizar que el gestor documental Orfeo se encuentra instalado en el sistema operativo. ILUSTRACION 31: Librería Orfeo 98 Con lo anterior ya se tiene listo el Orfeo para utilizarse, en esta práctica a la hora de ingresar al navegador se debe asignar una IP al servidor en este caso se realizo con una IP publica la dirección es 192.168.0.25 (véase en la ilustración 32). ILUSTRACION 32: IP del servidor Ingresar con la dirección 192.168.0.25, para conectar el cliente con el servidor, en este caso se hará con la maquina real. ILUSTRACION 33: Ingreso al servidor Orfeo 99 Al tener una conexión con el servidor se prosigue a ingresar los datos de administrador el usuario “ADMON” y password “123” pulsamos ingresar. ILUSTRACION 34: Interfaz de usuario de Orfeo Creación de usuarios-concesión de permisos Se procedió a crear un usuario con un rol limitado (rol de usuario) para verificar si se podía conectar desde otro equipo y las acciones que éste puede realizar dependiendo de las asignaciones determinadas por el administrador que en este caso fueron la remoción del permiso de eliminar y editar archivos. 100 Para crear usuarios es necesario entrar con un rol de administrador: En la pestaña de administración, se da clic en usuarios y perfiles, clic en crear en usuario, donde se desplegará los datos. . ILUSTRACION 35: Formulario para crear usuarios Al completar los datos el usuario, se asignan los permisos para dicho usuario ILUSTRACION 36: Permisos de usuario 101 Se ingresa el usuario “johnM” y password “123” al ingresar, pedirá nueva clave. ILUSTRACION 37: Ingreso de cliente Orfeo ILUSTRACION 38: Cambio de clave 102 ILUSTRACION 39: Ingreso usuario chrome ILUSTRACION 40: Ingreso usuario Internet Explorer 103 14. ANEXO C: Implantación del Gestor documental a la fundación ONE TWO TREE Al tener en cuenta las 7 recomendaciones para escoger un gestor documental, la implantación del sistema de gestión documental a la fundación ONE TWO TREE se ha tomado la decisión de implantar el sistema OpenKM, por su fácil instalación, fácil interacción con la interfaz gráfica, por la seguridad y el buen manejo que se le da a los componentes que el Gestor Documental nos ofrece, entre otros. La cual se seguirá explorando más allá en el Gestor Documental OpenKM Experiencia OpenKM Importar carpetas Para importar datos se requiere tener permisos de administrador y tenerlo disponible en el servidor, en la parte superior se dirigen a herramientas, en la pestaña mostrar Administración, en el ícono de Importación aparecerá un menú en el cual tiene que especificar la ubicación de donde se desea importar el documento y el lugar dentro de la cual se requiere que se almacenen los documentos. El proceso demorará dependiendo del tamaño del archivo. ILUSTRACION 1: Importar carpetas OpenKM 104 ILUSTRACION 2: Visualización Creación de carpetas Para la creación de carpetas no se requiere necesariamente tener permisos de administración, todo depende si está autorizado para crear carpetas y/o documentos en la ubicación deseada. Estando en la pestaña de escritorio, en la sección de taxonomía se encuentra la carpeta okm:root. ILUSTRACION 3: Carpeta okm:root Da clic derecho sobre la mencionada carpeta, al realizar esta operación se desplegará una ventana y seleccionará la opción: Crear carpeta. 105 ILUSTRACION 4: Crear carpeta Opción crear carpeta Al elegir esta opción aparecerá una nueva carpeta lista para ponerle el nombre deseado, se presiona la tecla <Enter> y queda creada la carpeta. ILUSTRACION 5: Opción editar carpeta Búsqueda básica de carpetas Para buscar cualquier carpeta, debe dirigirse a la parte superior izquierda, desplegar el menú de archivo y seleccionar la opción Buscar carpeta. ILUSTRACION 6: Búsqueda básica de carpetas. 106 Luego aparecerá una ventana, en la que podrá escribir el nombre de la carpeta que está buscando. ILUSTRACION 7: Ventana: filtrado por carpeta. Aparecerán todas aquellas carpetas que contengan el filtro que digitó, luego selecciona la carpeta que está buscando y da clic en la opción Ir a la carpeta. Búsqueda básica de documentos. Se repite el mismo procedimiento anterior solo que en lugar de seleccionar la opción de Buscar archivo, selecciona la opción Buscar documento ILUSTRACION 8: Búsqueda básica de documentos. Búsqueda de documentos similares. Selecciona el documento deseado, luego va a la pestaña <archivo> y selecciona la opción <Buscar documentos similares>, si el documento seleccionado tiene palabras en común con otros documentos se abrirá una ventana mostrando la ruta 107 de los otros documentos de lo contrario la opción <Buscar documentos similares> estará inhabilitada. ILUSTRACION 9: Búsqueda de documentos similares. Mover documentos y/o carpetas. Se dirige a la carpeta o documento que necesite mover, da clic derecho y se despliega un menú en el cual seleccionará la opción Mover . ILUSTRACION 10: Opción mover documento y/o carpetas. Al seleccionar esta opción aparecerá una ventana con la taxonomía de su repositorio. 108 ILUSTRACION 11: Selección de carpeta a (Mover) En la barra superior (encerrada en rojo), se tienen múltiples opciones: <Taxonomía>, <Plantilla>, <Documentos personales> o <Correo electrónico>, elija la opción en la que desee ver el repositorio, luego selecciona la ubicación a la que necesite mover la carpeta o documento y finalmente de clic en la opción Mover Copiar documentos y/o carpetas Seleccione la carpeta o el documento que requiera copiar; al dar clic derecho se desplegará un menú, en que seleccionará la opción <Copiar>. ILUSTRACION 12: Copiar documentos y/o carpetas. 109 Aparecerá la ventana con la taxonomía del repositorio, seleccione la carpeta destino y de clic sobre la opción Copiar. ILUSTRACION 13: Seleccionar carpeta destino a copiar Eliminar documentos y/o carpetas Si su usuario tiene permisos de borrarla, debe dar clic derecho sobre la carpeta y/o el archivo que se vaya a eliminar, se expandirá una ventana en la que dará clic en la opción Eliminar. ILUSTRACION 14: Opción Eliminar Y luego, de clic en la opción aceptar. 110 Edición de documentos Para poder editar un documento, el usuario debe tener permisos de lectura y edición, selecciona el documento a editar y da clic en la opción <Editar> (encerrada en rojo) ILUSTRACION 15: Opción Editar El programa abrirá el documento seleccionado, realice la edición que desee y luego guarde y cierre el documento. Estando en OpenKM de clic en el icono de actualización de documentos: ILUSTRACION 16: Icono actualizar documentos. Prosiga dando clic en la opción <enviar> de la ventana: actualización de documentos y quedará guardada la edición que usted haya realizado. 111 ILUSTRACION 17: Ventana actualizar documentos. En caso de que se desee abortar la edición de documentos, debe dar clic en el icono Cancelar edición ILUSTRACION 18: Icono cancelar edición Edición e palabras claves La edicion de palabras claves, describe e identifica al archivo para futuras búsquedas facilitando encontrar el archivo deseado. Para adicionar palabras claves debe seleccionar el documento, carpeta o archivo que desee, en la parte inferior tiene múltiples opciones, en la pestaña de <Propiedades> en la sección de palabras claves (Encerrada en rojo en la ilustración 59) se agrega la palabra clave y se digita enter. 112 ILUSTRACION 19: Palabras claves Descarga de documentos Para descargar documentos hay dos maneras muy sencillas, la primera es dar clic derecho sobre el documento que se va a descargar y seleccionar la opción Descargar ILUSTRACION 20: Descarga-clic derecho La segunda manera es seleccionar el icono <Descargar> y aparecerá la ventana de ubicación de la descarga. 113 ILUSTRACION 21: Icono de descarga Accesos directos de teclado Accesos directos del teclado en OpenKM FUNCIÓN Renombrar Borrar Copiar Cortar Pegar Inserción de documentos Crear carpeta Ayuda Refrescar espacio de trabajo ACCESO TECLADO F2 Supr. Ctlr + Shif + C Ctlr + Shif + X Ctlr + Shif + V Insert Ctrl + N F1 F5 Selección Masiva Para la selección rápida o masiva debe dar clic en el icono de <Selección>, que dará múltiples opciones, por ejemplo selección solo de carpetas, selección solo de documentos o selección de todo (Carpetas y documentos). ILUSTRACION 22: Icono de selección 114 Después de seleccionar los documentos o carpetas que se requieran, se da clic derecho sobre cualquiera de los documentos seleccionados y se elige la operación que desee, operaciones básicas como: eliminar, copiar o mover, u operaciones específicas como inserción de notas, palabras clave, entre otras. Mis documentos Para ir a <Mis documentos> seleccione la pestaña de <Documentos personales>, aparecerán todas las carpetas propias de cada usuario, el acceso a cada carpeta (por defecto) está restringido únicamente al dueño de la carpeta si desea cambiar esto vea: Administración de carpetas y documentos. En esta carpeta puede almacenar sus documentos personales y tener la seguridad que nadie más puede acceder a ella. ILUSTRACION 23: Documentos personales En caso de que no aparezca la carpeta de su usuario por defecto, tendrá que proceder a crearla. Creacion de notas en documentos y/o carpetas Para crear notas y/o comentarios acerca del documento, seleccione el archivo al cual se le desea insertar una nota, y en la parte inferior seleccione la pestaña de <Notas>, allí se inserta la nota (ilustración 64.), con múltiples opciones de tamaño y tipo de letra, entre otras. 115 ILUSTRACION 24: Inserción de notas Administración de carpetas y documentos Para administrar los permisos de lectura, escritura, borrado y seguridad de un documento y/o carpeta, seleccione el archivo en cuestión y en la parte inferior en la pestaña <Seguridad> elija la opción actualizar. ILUSTRACION 25: Administración de archivos Aparecerá una ventana la cual tiene dos opciones de administración, la primera a nivel general (“Roles”) en la que solo se distingue únicamente dos roles: el rol de 116 usuario y el rol de administrador, y la segunda opción (“Usuarios”), reconoce cada uno de los usuarios con acceso al repositorio. En cualquiera de los dos casos se selecciona el usuario o rol de usuario que se desee administrar y da clic en la flecha con dirección a la derecha. ILUSTRACION 26: Selección de usuario Aparecerá el usuario seleccionado en la parte derecha con las opciones de seleccionar o des-seleccionar los permisos del archivo previamente elegido, una vez se haya hecho la administración deseada, deberá dar clic en la opción <Cerrar> y en la pestaña de seguridad se mostrará la administración de archivos actualizada (ilustración 67). 117 I LUSTRACION 27: Selección de usuario Historial de documentos específicos Para ver las modificaciones que ha sufrido el archivo desde su creación, este se selecciona y luego en la parte inferior da clic en la opción <Historial> y se desplegará las lista de modificaciones que ha tenido el documento junto con las fechas y horas exactas, además tendrá la opción de restaurar el documento a un estado anterior o visualizarlo como se encontraba antes (Ilustración 68) ILUSTRACION 28: Historial de documentos específicos Si desea borrar el historial debe seleccionar la opción <Compactar histórico>, aparecerá una ventana que le pregunta si está seguro de borrar el histórico del documento y dará clic en la opción Aceptar. Búsqueda avanzada de archivos Para realizar una búsqueda avanzada de cualquier documento o carpeta se da clic en la opción <Buscador> que se encuentra en la parte superior derecha de la 118 interfaz gráfica de OpenKM, se selecciona <Ver búsqueda avanzada>, en la parte izquierda ingresa los datos necesarios para realizar la búsqueda de su archivo. En la pestaña <Básico> podrá ingresar datos como nombre, contenido y palabras claves del archivo, entre otras opciones y presionar enter para realizar la búsqueda. En la pestaña <Avanzada>, tendrá opciones más específicas sobre el archivo en cuestión, por ejemplo podrá seleccionar si lo que busca es un documento, un correo o una carpeta, además contará con la opción de seleccionar el tipo de documento (Word, Excel, Power Point,entre otros.) ILUSTRACION 29: búsqueda avanzada Idioma Al ingresar a OpenKM, en la parte inferior se tiene la opción de idioma con el que desea ingresar (OpenKM únicamente trae como opción inicial: Español, Inglés y Francés) en la que podrá escoger el idioma deseado, pero una vez ingresado al repositorio, también se puede cambiar el idioma seleccionando la opción <Herramientas>, luego <Idiomas> y finalmente el idioma de preferencia. Registro de actividades Únicamente los usuarios con rol de administrador pueden ver el registro de actividades de todos los usuarios. Debe seleccionar la pestaña <administración>, 119 ubicada en la parte superior derecha de la interfaz gráfica y luego dar clic en el icono encerrado en rojo de la Ilustración 70. ILUSTRACION 30: Registro de actividades En esta sección podrá ingresar rangos de fecha, usuarios específicos o acciones exactas de las que requiera información, una vez ingresa los datos da clic en <Search> y aparecerá el historial con las características que haya elegido. Combina documentos Para fusionar documentos .PDF, el usuario debe elegir los archivos a combinar, dar clic derecho y seleccionar la opción <Fusionar PDF>, después saldrá una ventana con los archivos previamente escogidos (ilustración 71). ILUSTRACION 31: Funcionar PDF Las flechas verdes permiten ordenar el documento seleccionando el orden en que deben ir ubicados los documentos, una vez estructurado el nuevo PDF, se escribe el nombre que elija y da clic en la opción Fusionar y quedará combinado el nuevo documento sin eliminar los archivos anteriormente escogidos. 120 Enviar documentos como archivos adjuntos Los archivos solo podrán enviarse a usuarios OpenKM, como un archivo adjunto de correo electrónico, tendrá que seleccionar el archivo a enviar, luego ir a Archivos y elegir la opción Enviar documento adjunto, aparecerá la siguiente ventana. ILUSTRACION 32: Envió de documentos adjuntos Allí podrá elegir uno o más usuarios a los que desee enviar el documento adjunto, junto con una descripción o mensaje de notificación, luego da clic en la opción Enviar, y aparecerá un recuadro que le notifique que su correo ha sido enviado correctamente. Subir un documento encriptado Para subir un documento encriptado, debe ir al panel de <Herramientas>, seleccionar la opción Cryptografía y seleccionar Subir documento encriptado luego aparecerá un ventana en la que debe escribir una contraseña, la que desee, y luego aparecerá una ventana en la que podrá seleccionar el documento encriptado que esté buscando. 121 ILUSTRACION 33: Ejemplo de documentos encriptados Escaneo y subida directa de documentos Para escanear documentos, el usuario debe ir al icono de escáner en la parte superior ILUSTRACION 34: Icono escáner Luego aparecerá una ventana en la podrá poner el formato y el nombre que desea que tenga el documento a escanear, y luego dará clic en la opción Scanear y Subir ILUSTRACION 35: Scan Y Upload 122 Extracción de estadísticas Esta opción solo está habilitada para los administradores, se encuentra en la sección de administración en el icono de <Statistics> y muestra todo lo relacionado con el repositorio tamaño de uso y disponibilidad de espacio del disco, de la memoria JVM, entre otros, le permite al administrador, saber de una manera bastante gráfica como se está manejando la gestión del conocimiento de su organización. ILUSTRACION 36: Estadísticas Exportación de reposito Está acción solo la pueden realizar usuarios con permisos de administración selecciona la pestaña <Administración> y da clic en el icono de Exportar (Ilustración 77). 123 ILUSTRACION 37: Estadísticas En la sección: Repositorypath, se selecciona la ruta de los archivos en OpenKM, en la opción Filesystempath se ingresa la ruta del servidor o computador a donde se van a pasar los archivos. Si desea incluir Metadatos y el historial de los archivos seleccione ambos cuadros, de lo contrario deje los cuadros sin seleccionar y seleccione la opción <Export>. De esta manera los archivos que seleccionó anteriormente quedarán guardados en su computador o servidor. Administración de perfiles (Parámetros especiales) ILUSTRACION 38: Estadísticas Al entrar en la sección Administración, debe dar clic en el icono UserProfiles y luego ingresar a la figura <Editar>, saldrá la ventana que se muestra a continuación. 124 ILUSTRACION 39: Parámetros especiales en la administración de usuarios En esta sección se pueden configurar distintos grupos de trabajo con diferentes permisos a determinadas carpetas del repositorio, además puede seleccionar las columnas adicionales que desea que vean, para ello debe ingresar a la pestaña Others y en donde dice Column podrá seleccionar las columnas que sean pertinentes para el usuario. Para poder visualizar las columnas adicionales, debe cerrar OpenKM y volver a cargar el sistema, de esta manera podrá observar todos los cambios anteriormente realizados 125 ILUSTRACION 40: Columnas adicionales Pre visualización Para poder pre visualizar los archivos o imágenes en la versión Community de OpenKM es necesario realizar la configuración y es primordial tener instalado en el servidor OpenOffice o LibreOffice, Flash Player e Imagemagick ya que OpenKM necesita convertir los archivos a SWF (Shockwave Flash Movie –archivos de Adobe Flash Player) y configurar los siguientes líneas en el menú disponible en el rol de Administrador. 126 ILUSTRACION 41: Elementos configurar para habilitar la pre visualización Estas líneas pueden editarse en la misma pestaña de configuración haciendo clic en el lápiz, para ello se debe tener cuidado en que sistema operativo se está trabajando puesto que los directorios cambian si se está trabajan en Windows o en alguna distribución libre (Linux): ILUSTRACION 42: Listado de opciones de configuración El resultado es: ILUSTRACION 43: Pre visualización de imágenes 127 15. CONCLUSIÓN Debido a la necesidad de un mejor manejo de la información es de gran importancia un software especializado en la gestión del conocimiento para facilitar los procesos dentro de una organización o persona independiente. En el mercado se encuentran diferentes software libres en relación al manejo de la información que difieren únicamente en su resultado final, existen gestores de conocimientos, de archivos, contenidos empresariales, entre otros. Existen gestores del conocimiento altamente competitivos, entre ellos OpenKM es un software muy amigable gráficamente, puede gestionar grandes volúmenes de información, administración de permisos, reportes de gran utilidad y es seguro para la información que guarda con tanto recelo. La diferencia entre la versión OpenKM trial y free, es leve y aquellas diferencias que favorecen a la versión trial no se consideran de uso esencial dentro de la Fundación ONE TWO TREE. En caso de querer adquirir la versión profesional de OpenKM se debe pagar una licencia la cual incluye soporte técnico, integración con Dropbox y Google Docs (de esta manera se puede realizar la edición de un documento en línea sin necesidad de descargarlo, además permite la edición por varios usuarios simultáneamente), entre otros. . 128 16. ANEXO E: Bibliografía (OpenKM Knowledge Management. (s.f.). Arquitectura.Recuperado el 15 de Septiembre de 2015, de http://www.openkm.com/en/product/architecture.html ALFRESCO. (s.f.). Alfresco Enterprise. Recuperado el 28 de Septiembre de 2015, de http://docs.alfresco.com/4.0/concepts/welcome-infocenter.html Athento. (s.f.). NUXEO DM: CARACTERÍSTICAS. Recuperado el 16 de Octubre de 2015, de http://www.athento.com/nuxeo/caracteristicas/ GEDSA INGENIERIA DOCUMENTAL. (s.f.). 7 cosas a tener en cuenta para seleccionar un software de Gestion Documental. Recuperado el 15 de Septiembre de 2015, de http://www.gedsa.es/2013/06/7-cosas-a-tener-en-cuenta-paraseleccionar-un-software-de-Gestion-Documental.html OpenKM Knowledge Management. (s.f.). Características.Recuperado el 15 de Septiembre de 2015, de http://www.openkm.com/en/product/features.html OpenKM Knowledge Management. (s.f.). Gestión Documental Open Source.Recuperado el 15 de Septiembre de 2015, de http://www.openkm.com/es/ OpenKM Knowledge Management. (s.f.). Requerimientos Hardware.Recuperado el 15 de Septiembre de 2015, http://www.openkm.com/en/product/hardware-requirements.html de de OpenKM Knowledge Management. (s.f.). Tecnología.Recuperado el 15 de Septiembre de 2015, de http://www.openkm.com/en/product/technology.html Orfeo Libre. (s.f.). SISTEMA DE GESTIÓN DOCUMENTAL. Recuperado el 22 de Octubre de 2015, de http://www.orfeolibre.org/portal/index.php/the-news/2uncategorised/63-sgd-leermas 17. ANEXO F: Que es un crawler Es un agente del tipo bot que recorre recursivamente el World Wide Web bajo algún orden predeterminado y que recopila información acerca de los documentos 129 que encuentra y su estructura de vínculos. El índice de páginas generado por los crawlers es utilizado como parte central de cualquier sistema de acceso a la información en el WWW (como motores de búsqueda). Son programas encargados de realizar las búsquedas dentro de las bases de datos de documentos web. Actualmente se clasifican en tres categorías principales: motores de búsqueda temática, también conocidos como directorios o catálogos; motores de búsqueda por palabras claves o "crawlers" y sistemas basados en el "content-routing" Un robot, es el programa que rastrea la web tomando información sobre las páginas que encuentra. Cada robot trabaja en forma particular generalmente parten de una lista determinada y a partir de ahí hacen un rastreo recursivo de los documentos que se referencia en un documento. Un índice es la base de datos que contiene una copia completa o parcial de los documentos reunidos por el robot. Un Mecanismo de búsqueda, programa que permite al usuario encontrar páginas de su interés que estén en el índice a través de una página web y que devuelve resultados correspondientes a la búsqueda ordenados según los criterios establecidos previamente por el usuario. Buscadores verticales Buscadores especializados en un sector concreto, lo que les permite analizar la información con mayor profundidad disponer de resultados más actualizados y ofrecer al usuario herramientas de búsqueda avanzadas. Es importante resaltar que utilizan índices especializados de esta manera acceder a la información de una manera más específica y fácil (Yahoo!, msm, google, ask, terra, ubbi,) (manz, 2007) 18. ANEXO G: Funcionalidad de un crawler El funcionamiento de un crawler o robot de navegación tomar una dirección URL (o identificador de un sitio Web) a partir de una lista, descargar su contenido (sus páginas HTML), clasificarlo y aprovechar los enlaces de dichas páginas para hacer 130 una nueva búsqueda con cada documento vinculado. A su vez, cada nuevo documento vinculado se clasifica nuevamente. Un componente llamado “gestor de descargas” examina el contenido de un sitio web, crea un documento con sus metadatos y almacena el contenido en un repositorio. También busca en dicho sitio más enlaces o URLs, los cuales son enviados a una cola de espera para su procesamiento posterior. Por otro lado, hay un módulo llamado “programador”, que se encarga de tomar los enlaces de la cola de espera para enviarlos al programador y realizar con él un nuevo proceso llamado barrido de segundo nivel. (Iván Camargo Sarmiento, 2013) ILUSTRACION 1: Funcionalidad de un crawler ¿Cómo funciona un motor de búsqueda? Se puede decir, simplificando mucho que un motor de búsqueda consta de cuatro partes: Un interfaz para el usuario para hacer peticiones de búsqueda Un robot o spider que busca la información en Internet Un algoritmo que conecta las peticiones de los usuarios con la base de datos Y una base de datos donde se han indexado los contenidos El corazón de todo motor de búsqueda es sin duda el algoritmo que dirige al robot o spider y después categoriza la información que se mostrará tras las peticiones de los usuarios. 131 Estos algoritmos son realmente complejos y solo sus propios desarrolladores saben cómo funcionan. Nota: Se hace una mención a satriadityo en el cual suministra el código fuente del siguiente enlace https://github.com/satrioadityo/Netbeans-Java-Web-Crawler el cual se hizo las modificaciones concordes a nuestro alineamiento del proyecto. 19. ANEXO H: Diseño, desarrollo y pruebas del crawler TABLA 1: Caso de uso 1 Caso de uso Caso de Prueba Actor CU_01 Ingreso de la dirección web Cp_01 Ingreso de la dirección web Usuario Precondiciones Tener acceso a internet Propósito Buscar página web escenarios CP_01_E01: Verificar si ingresaron la URL' de la pagina Sec. Actividad Clase de equivalencia 1 Explorar la Validad URL ingresada por el usuario TABLA 2: Caso de uso 2 Caso de uso Caso de Prueba CU_02 Almacenar resultado Cp_02 Almacenar resultado 132 Resultados Extraer el contenido de la exploración del crawler Actor Usuario Precondiciones ingresar la URL Propósito Almacenar información explorada de la URL escenarios CP_02_E01: Comprobar si la dirección de almacenamiento es correcta Sec. 1 Clase de Actividad equivalencia El usuario selecciona la Validad ruta de almacenamiento de resultados Resultados Visualizar la ruta de almacenamiento donde van a ser guardadas la información escaneada por el crawler TABLA 3: Caso de uso 3 Caso de uso Caso de Prueba Actor CU_03 Limite del crawler Cp_03 Limite del crawler Usuario Precondiciones Visualizar la dirección de la página que se va a explorar Observa la ruta de almacenamiento Propósito Delimitar la profundidad del crawler escenarios CP_03_E01: Verificar el número de profundidad de exploración Clase de Sec. Actividad equivalencia 1 Visualizar el límite del Validad crawler TABLA 4: Caso de uso 4 Caso de uso Caso de Prueba CU_04 Dar la ruta de almacenamiento de las URL Cp_04 Dar la ruta de almacenamiento de las URL 133 Resultados Visualizar los datos del crawler y su profundidad Actor Precondiciones Propósito escenarios Usuario Visualizar la dirección de la página que se va a explorar Observa la ruta de almacenamiento Visualizar el límite del crawler Almacenar las URL visitadas CP_04_E01: Guardar ruta de almacenamiento de las URL's Clase de Sec. Actividad equivalencia Resultados 1 Almacenar las páginas Validad Mostrar la ruta de visitadas almacenamiento de las URL's visitadas TABLA 5: Caso de uso 5 Caso de uso Caso de Prueba Actor Precondiciones CU_05 Iniciar crawler Cp_05 Iniciar crawler Usuario Visualizar la dirección de la página que se va a explorar Observa la ruta de almacenamiento Visualizar el límite del crawler Propósito Iniciar la exploración en la pagina escenarios CP_05_E01: Iniciar la exploración de las pagina Clase de Sec. Actividad equivalencia 1 Inicializar la Validad exploración de la página y extraer la información de ella TABLA 6: Caso de uso 6 134 Resultados iniciar exploración Caso de uso Caso de Prueba Actor Precondiciones CU_06 Observar que la pagina ya ha sido visitada Cp_06 Observar que la pagina ya ha sido visitada Usuario Visualizar la dirección de la página que se va a explorar Observa la ruta de almacenamiento Visualizar el límite del crawler Propósito ver resultado escenarios CP_06_E01: Iniciar la exploración de las pagina Clase de Sec. Actividad equivalencia 1 Observar que la Validad pagina ya ha sido visitada y está lista para visitar otra pagina Resultados Mostrar de la página fue explorada y su información de ella fue guardada correctamente Diagrama de actividades Crawler ONE TWO TREE ILUSTRACION 7: Diagrama de actividades Diagrama de clases Crawler ONE TWO TREE 135 ILUSTRACION 8: Diagrama de clases Diseño del Crawler ONE TWO TREE ILUSTRACION 9: Interfaz crawler ONE TWO TREE Imágen sctript de primer nivel Crawler ONE TWO TREE 136 137 138 139 140 141 142 143 144 ILUSTRACION 10: Imágenes Script ONE TWO TREE 145 Script Crawler ONE TWO TREE /* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. */ package com.java.crawler.basdat; import java.io.BufferedOutputStream; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutputStream; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.io.PrintWriter; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import javax.swing.JOptionPane; import javax.swing.JTextArea; import javax.swing.JTextField; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; /** * * @author satrio */ public class BasdatCrawler extends javax.swing.JFrame { private int LIMIT; private ArrayList<String> listPageVisited; private ArrayList<String> listPageToVisit; // lista de páginas que debe ser visitado private ArrayList<String> listPreviousPageVisited; private static final String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.112 Safari/535.1"; private ArrayList<String> links; // arrayList para dar cabida a los resultados obtenidos enlaces de rastreo private Document htmlDocument; int numb = 0; 146 /** * Creates new form BasdatCrawler */ public BasdatCrawler() { initComponents(); listPageVisited = new ArrayList<String>(); listPageToVisit = new ArrayList<String>(); listPreviousPageVisited = new ArrayList<String>(); links = new ArrayList<String>(); } public void openFilePathDialog(JTextField textField){ chooser.setFileSelectionMode(chooser.FILES_AND_DIRECTORIES); int returnval = chooser.showOpenDialog(BasdatCrawler.this); if (returnval == chooser.APPROVE_OPTION){ File file = chooser.getSelectedFile(); try { if (file.isFile()){ textField.setText(file.getParent().toString()); }else if (file.isDirectory()){ textField.setText(file.getAbsolutePath().toString()); } } catch (Exception ee) { JOptionPane.showMessageDialog(BasdatCrawler.this, "Choose Folder First"); } } } public void outputConsole(JTextArea textArea, String message){ textArea.append(message); } /** * This method is called from within the constructor to initialize the form. * WARNING: Do NOT modify this code. The content of this method is always * regenerated by the Form Editor. */ @SuppressWarnings("unchecked") // <editor-fold defaultstate="collapsed" desc="Generated Code"> private void initComponents() { chooser = new javax.swing.JFileChooser(); mainPane = new javax.swing.JPanel(); jPanel2 = new javax.swing.JPanel(); txtURL = new javax.swing.JTextField(); btnStartCrawl = new javax.swing.JButton(); 147 jLabel2 = new javax.swing.JLabel(); jLabel3 = new javax.swing.JLabel(); txtFilePath = new javax.swing.JTextField(); btnFilePath = new javax.swing.JButton(); jLabel7 = new javax.swing.JLabel(); txtLimit = new javax.swing.JTextField(); jLabel4 = new javax.swing.JLabel(); btnDBUrlPath = new javax.swing.JButton(); txtDBUrlPath = new javax.swing.JTextField(); jPanel3 = new javax.swing.JPanel(); jScrollPane1 = new javax.swing.JScrollPane(); txtCrawlingProcess = new javax.swing.JTextArea(); jLabel5 = new javax.swing.JLabel(); jButton1 = new javax.swing.JButton(); setDefaultCloseOperation(javax.swing.WindowConstants.EXIT_ON_CLOSE); mainPane.setBackground(new java.awt.Color(235, 134, 79)); jPanel2.setBackground(new java.awt.Color(202, 79, 0)); jPanel2.setForeground(new java.awt.Color(102, 102, 102)); txtURL.setText("http://"); txtURL.setToolTipText("include the protocol !"); btnStartCrawl.setText("Iniciar Crawler"); btnStartCrawl.addActionListener(new java.awt.event.ActionListener() { public void actionPerformed(java.awt.event.ActionEvent evt) { btnStartCrawlActionPerformed(evt); } }); jLabel2.setForeground(new java.awt.Color(255, 255, 255)); jLabel2.setText("Direccion Web *"); jLabel3.setForeground(new java.awt.Color(255, 255, 255)); jLabel3.setText("Guardar Resultado *"); txtFilePath.setEditable(false); btnFilePath.setText("Ruta De Archivo"); btnFilePath.addActionListener(new java.awt.event.ActionListener() { public void actionPerformed(java.awt.event.ActionEvent evt) { btnFilePathActionPerformed(evt); } }); 148 jLabel7.setForeground(new java.awt.Color(255, 255, 255)); jLabel7.setText("Limite de crawler *"); jLabel4.setForeground(new java.awt.Color(255, 255, 255)); jLabel4.setText("Datos Previos :"); btnDBUrlPath.setText("Ruta DB URL "); btnDBUrlPath.addActionListener(new java.awt.event.ActionListener() { public void actionPerformed(java.awt.event.ActionEvent evt) { btnDBUrlPathActionPerformed(evt); } }); javax.swing.GroupLayout jPanel2Layout = new javax.swing.GroupLayout(jPanel2); jPanel2.setLayout(jPanel2Layout); jPanel2Layout.setHorizontalGroup( jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(jPanel2Layout.createSequentialGroup() .addContainerGap() .addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addComponent(btnStartCrawl, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE) .addGroup(jPanel2Layout.createSequentialGroup() .addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addComponent(jLabel3) .addComponent(jLabel7) .addComponent(jLabel4) .addComponent(jLabel2)) .addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED) .addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(jPanel2Layout.createSequentialGroup() .addComponent(btnDBUrlPath) .addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED, javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE) .addComponent(txtDBUrlPath, javax.swing.GroupLayout.PREFERRED_SIZE, 1089, javax.swing.GroupLayout.PREFERRED_SIZE)) .addComponent(txtLimit) .addGroup(jPanel2Layout.createSequentialGroup() .addComponent(btnFilePath, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE) .addGap(18, 18, 18) .addComponent(txtFilePath, javax.swing.GroupLayout.PREFERRED_SIZE, 1089, javax.swing.GroupLayout.PREFERRED_SIZE)) .addComponent(txtURL, javax.swing.GroupLayout.Alignment.TRAILING)))) 149 .addContainerGap()) ); jPanel2Layout.setVerticalGroup( jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(jPanel2Layout.createSequentialGroup() .addGap(3, 3, 3) .addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE) .addComponent(txtURL, javax.swing.GroupLayout.PREFERRED_SIZE, 25, javax.swing.GroupLayout.PREFERRED_SIZE) .addComponent(jLabel2)) .addGap(18, 18, 18) .addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE) .addComponent(jLabel3) .addComponent(btnFilePath) .addComponent(txtFilePath, javax.swing.GroupLayout.PREFERRED_SIZE, 25, javax.swing.GroupLayout.PREFERRED_SIZE)) .addGap(18, 18, 18) .addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE) .addComponent(jLabel7) .addComponent(txtLimit)) .addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.UNRELATED) .addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE) .addComponent(jLabel4) .addComponent(btnDBUrlPath) .addComponent(txtDBUrlPath, javax.swing.GroupLayout.PREFERRED_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.PREFERRED_SIZE)) .addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED, 22, Short.MAX_VALUE) .addComponent(btnStartCrawl) .addContainerGap()) ); jPanel3.setBackground(new java.awt.Color(203, 78, 0)); txtCrawlingProcess.setColumns(20); txtCrawlingProcess.setRows(5); jScrollPane1.setViewportView(txtCrawlingProcess); jLabel5.setForeground(new java.awt.Color(255, 255, 255)); jLabel5.setText("Proceso Del Crawler"); javax.swing.GroupLayout jPanel3Layout = new javax.swing.GroupLayout(jPanel3); jPanel3.setLayout(jPanel3Layout); 150 jPanel3Layout.setHorizontalGroup( jPanel3Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(jPanel3Layout.createSequentialGroup() .addContainerGap() .addGroup(jPanel3Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(jPanel3Layout.createSequentialGroup() .addComponent(jLabel5) .addGap(0, 0, Short.MAX_VALUE)) .addComponent(jScrollPane1)) .addContainerGap()) ); jPanel3Layout.setVerticalGroup( jPanel3Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(javax.swing.GroupLayout.Alignment.TRAILING, jPanel3Layout.createSequentialGroup() .addContainerGap() .addComponent(jLabel5) .addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED) .addComponent(jScrollPane1, javax.swing.GroupLayout.DEFAULT_SIZE, 239, Short.MAX_VALUE) .addContainerGap()) ); jButton1.setBackground(new java.awt.Color(51, 0, 204)); jButton1.setIcon(new javax.swing.ImageIcon("C:\\Users\\JohnMairon\\Google Drive\\universida\\4 IST\\informe final\\ONE TWO TREE lOGO_editado-1.jpg")); // NOI18N jButton1.setText("jButton1"); jButton1.addActionListener(new java.awt.event.ActionListener() { public void actionPerformed(java.awt.event.ActionEvent evt) { jButton1ActionPerformed(evt); } }); javax.swing.GroupLayout mainPaneLayout = new javax.swing.GroupLayout(mainPane); mainPane.setLayout(mainPaneLayout); mainPaneLayout.setHorizontalGroup( mainPaneLayout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addComponent(jPanel3, javax.swing.GroupLayout.Alignment.TRAILING, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE) .addGroup(mainPaneLayout.createSequentialGroup() .addGroup(mainPaneLayout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(mainPaneLayout.createSequentialGroup() .addGap(196, 196, 196) 151 .addComponent(jButton1, javax.swing.GroupLayout.PREFERRED_SIZE, 950, javax.swing.GroupLayout.PREFERRED_SIZE)) .addGroup(mainPaneLayout.createSequentialGroup() .addContainerGap() .addComponent(jPanel2, javax.swing.GroupLayout.PREFERRED_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.PREFERRED_SIZE))) .addContainerGap(18, Short.MAX_VALUE)) ); mainPaneLayout.setVerticalGroup( mainPaneLayout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addGroup(mainPaneLayout.createSequentialGroup() .addContainerGap() .addComponent(jButton1, javax.swing.GroupLayout.PREFERRED_SIZE, 101, javax.swing.GroupLayout.PREFERRED_SIZE) .addGap(41, 41, 41) .addComponent(jPanel2, javax.swing.GroupLayout.PREFERRED_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.PREFERRED_SIZE) .addGap(18, 18, 18) .addComponent(jPanel3, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE) .addContainerGap()) ); javax.swing.GroupLayout layout = new javax.swing.GroupLayout(getContentPane()); getContentPane().setLayout(layout); layout.setHorizontalGroup( layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addComponent(mainPane, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE) ); layout.setVerticalGroup( layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING) .addComponent(mainPane, javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE) ); pack(); }// </editor-fold> private void btnDBUrlPathActionPerformed(java.awt.event.ActionEvent evt) { // DB URL cuando ya ha sido visitado , este conjunto chooser.setFileSelectionMode(chooser.FILES_ONLY); int returnval = chooser.showOpenDialog(BasdatCrawler.this); if (returnval == chooser.APPROVE_OPTION){ File file = chooser.getSelectedFile(); try { if (file.isFile()){ 152 txtDBUrlPath.setText(file.getAbsolutePath().toString()); } } catch (Exception ee) { JOptionPane.showMessageDialog(BasdatCrawler.this, "Choose File First"); } } } private void btnFilePathActionPerformed(java.awt.event.ActionEvent evt) { // obtener una carpeta para almacenar los resultados de rastreo this.openFilePathDialog(txtFilePath); } private void btnStartCrawlActionPerformed(java.awt.event.ActionEvent evt) { System.out.println("starting crawl"); // Se inciializa la lista de trabajo, la DB de urls y las URL's ya procesadas listPageToVisit.clear(); listPageVisited.clear(); listPreviousPageVisited.clear(); System.out.println("Check 1"); // Revisndo la entrada del usuario if (!"".equals(txtURL.getText()) && !"".equals(txtFilePath.getText()) && !"".equals(txtLimit.getText())) { // Se extraen URL's si se entregaron mediante archivo System.out.println("Check 2"); if(!"".equals(txtDBUrlPath.getText())){ // leer el archivo por línea System.out.println("Check 3"); BufferedReader br = null; try { String sCurrentLine; br = new BufferedReader(new FileReader(txtDBUrlPath.getText())); while ((sCurrentLine = br.readLine()) != null) { System.out.println("CurrentLine: " + sCurrentLine); // Se añade la URL a la lista de trabajo listPreviousPageVisited.add(sCurrentLine); } } catch (IOException e) { 153 e.printStackTrace(); } finally { try { if (br != null)br.close(); } catch (IOException ex) { ex.printStackTrace(); } } } else{ listPreviousPageVisited.clear(); System.out.println("Check 4"); } System.out.println("Check 5"); System.err.println(listPreviousPageVisited.size()+" size listPrevious"); // Se extrae la URL y la ruta destino del GUI String url = txtURL.getText(); String filePath = txtFilePath.getText(); // Se asigna y extrae el liite del crawler del GUI int limit = 10; // conjunto límite predeterminado try { limit = Integer.parseInt(txtLimit.getText()); System.out.println("Check try"); } catch (Exception e) { System.out.println("Check try-catch"); JOptionPane.showMessageDialog(BasdatCrawler.this, "Input limitnya angka!", "ERROR", JOptionPane.ERROR_MESSAGE); } System.out.println("Check 6"); System.out.println("Check URLS:\n" + url); // establecer la dirección URL raíz a arrastrarse // Se inicializa el arbol de expansion añadiendo el primer elemento listPageToVisit.add(url); // Se asigna el limite LIMIT = limit; // INicio del crawling // Se procesan sitios mientras no excedamos el limite de procesamiento while(this.listPageVisited.size() < LIMIT){ String currentUrl; // Se toma la unica URL que hay 154 if(listPageToVisit.size()==1){ // tanda root akan dicrawl currentUrl = listPageToVisit.remove(0); System.out.println("current url to crawl = " + currentUrl+"\n"); } // Se toma la URL que hay, teniendo en cuenta que quedan mas por procesar else if(listPageToVisit.size() > 0 && listPageToVisit.size()!=1){ currentUrl = this.getNextUrl(); System.out.println("current url to crawl = " + currentUrl+"\n"); } else{ break; } // Se laza el crawler para dicha URL this.crawl(currentUrl, filePath); // Se archiva la URL como visitada this.listPageVisited.add(currentUrl); // Se añaden los links encontrados del proceso de crawling if(listPageToVisit.size() < 1000000000) listPageToVisit.addAll(links); for(String s : this.listPageVisited) { System.out.println(s + " sudah dicrawl, yeah !"); } } // Se genera el archivo donde se van a poner las URL's encontradas try { File file = new File(txtFilePath.getText()+"/dbUrl.txt"); // Si no existe el archivo , y luego crearlo if (!file.exists()) { file.createNewFile(); } // Se crea el fichero y se ponen todas las URL's visitadas FileWriter fw = new FileWriter(file.getAbsoluteFile()); BufferedWriter bw = new BufferedWriter(fw); for(String s : this.listPageVisited) { bw.write(s+"\n"); } bw.close(); System.out.println("Done Save list URL to file"); } catch (IOException e) { e.printStackTrace(); 155 } // Se notifica de cuantas URL's fueron visitadas System.out.println("\n**Done** Visited " + this.listPageVisited.size() + " web page(s)"); outputConsole(txtCrawlingProcess, "\n**Done** Visited " + this.listPageVisited.size() + " web page(s)"); } else{ JOptionPane.showMessageDialog(BasdatCrawler.this, "Lengkapi inputan", "ERROR", JOptionPane.ERROR_MESSAGE); } } private void jButton1ActionPerformed(java.awt.event.ActionEvent evt) { // TODO add your handling code here: } private String getNextUrl() { String nextUrl; if(listPreviousPageVisited.size()==0){ do { nextUrl = this.listPageToVisit.remove(0); } while(listPageVisited.contains(nextUrl)); } else{ do { nextUrl = this.listPageToVisit.remove(0); } while(listPageVisited.contains(nextUrl) || listPreviousPageVisited.contains(nextUrl) ); } return nextUrl; // volver a los enlaces no visitados } // Obtiene una imagen a partir de una URL y la pone en una ruta determinada public void getImages(String src, String folderImagePath) throws IOException { int indexname = src.lastIndexOf("/"); if (indexname == src.length()) { src = src.substring(1, indexname); } indexname = src.lastIndexOf("/"); String name = src.substring(indexname, src.length()); URL url = new URL(src); InputStream in = url.openStream(); 156 OutputStream out = new BufferedOutputStream(new FileOutputStream(folderImagePath+"/"+ name)); for (int b; (b = in.read()) != -1;) { out.write(b); } out.close(); in.close(); } // Obtiene un fichero de una URL determinada y la pone en una ruta private void getFile(String absUrl, String folderFilePath) { // encontrar el enlace int indexname = absUrl.lastIndexOf("/"); if (indexname == absUrl.length()) { absUrl = absUrl.substring(1, indexname); } indexname = absUrl.lastIndexOf("/"); String name = absUrl.substring(indexname+1, absUrl.length()); // Filtro proceso, si el nombre contiene .doc .docx .pdf .txt se guardarán if( name.contains(".pdf") || name.contains(".doc") || name.contains(".docx") || name.contains(".txt")) { URL url; try { // abrir el enlace para descargar el archivo url = new URL(absUrl); System.out.println("url file = "+url); InputStream in = url.openStream(); //el proceso de guardar el archivo en disco OutputStream out = new BufferedOutputStream( new FileOutputStream(folderFilePath + "/" + name)); for (int b; (b = in.read()) != -1;) { out.write(b); } out.close(); in.close(); System.out.println("success save file to device!"); } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } 157 } } public void crawl(String url, String folderFilePath) { try { // Nos conectamos al servidor de la URL Connection connection = Jsoup.connect(url); // Se descarga el html Document htmlDocument = connection.get(); this.htmlDocument = htmlDocument; File NewFolder = null; // Si el documento se obtuvo correctamente if(connection.response().statusCode() == 200) { System.out.println("**Visiting"+numb+" ** Received web page at " + url); // Se genera el archivo de URL's NewFolder = new File(""+folderFilePath+"/"+numb); NewFolder.mkdir(); PrintWriter pw = new PrintWriter(NewFolder.getAbsolutePath()+"/html"+numb+".txt"); String data = htmlDocument.html(); pw.println("Obteniendo enlaces:"); // Si se encuentra la expresion "http: se lee hasta encontra otro " for(int k = 0; k < data.length()-5; k++){ if("\"http".equals(data.substring(k, k+5))){ int kl; for(kl = k+1; data.charAt(kl) != '\"'; kl++){} pw.println(data.substring(k+1, kl)); k=kl+1 ; } } pw.println("Fin de los enlaces"); pw.close(); } else{ System.err.println("terjadi error !"); } // Si no se pudo obtener if(!connection.response().contentType().contains("text/html")) { System.out.println("**Failure** Retrieved something other than HTML"); outputConsole(txtCrawlingProcess, "**Failure** Retrieved something other than HTML"); } 158 // Se capturan todos los enlaces de etiqueta <a href ...> Elements linksOnPage = htmlDocument.select("a[href]"); System.out.println("Found (" + linksOnPage.size() + ") links"); // Se itera sobre todos los enlaces for(Element link : linksOnPage) { // Se almacenan las URL's teniendo cuidado de no tomar js, consultas, etc... if(link.absUrl("href").contains("merdeka.com") && (!link.absUrl("href").contains("#")) && (!link.absUrl("href").contains("?")) && (link.absUrl("href").contains(".html")) && (!link.absUrl("href").contains("{")) && (!link.absUrl("href").contains("}"))){ this.links.add(link.absUrl("href")); } // Si el enlace hace referencia a un archivo, se descarga if(link.absUrl("href").lastIndexOf("/")!=link.absUrl("href").length()){ // el proceso de descarga de archivos , guardar en un dispositivo de carpeta getFile(link.absUrl("href"), NewFolder.getAbsolutePath()); } } // Se procede a otener todos los tags <img> del documento html Elements img = htmlDocument.getElementsByTag("img"); // Se itera sobre todos los tags para descagarlos for (Element el : img) { // Se extrae la fuente String src = el.absUrl("src"); if(src.length()<255) // Se descarga desde la fuente getImages(src,NewFolder.getAbsolutePath()); } // Se incrementa el contador para la siguiente iteracion, y numerar las carpetas numb++; } catch(IOException ioe) { System.err.println(ioe.getMessage()); } } /** * @param args the command line arguments */ public static void main(String args[]) { /* Set the Nimbus look and feel */ 159 //<editor-fold defaultstate="collapsed" desc=" Look and feel setting code (optional) "> /* If Nimbus (introduced in Java SE 6) is not available, stay with the default look and feel. * For details see http://download.oracle.com/javase/tutorial/uiswing/lookandfeel/plaf.html */ try { for (javax.swing.UIManager.LookAndFeelInfo info : javax.swing.UIManager.getInstalledLookAndFeels()) { if ("Nimbus".equals(info.getName())) { javax.swing.UIManager.setLookAndFeel(info.getClassName()); break; } } } catch (ClassNotFoundException ex) { java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV ERE, null, ex); } catch (InstantiationException ex) { java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV ERE, null, ex); } catch (IllegalAccessException ex) { java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV ERE, null, ex); } catch (javax.swing.UnsupportedLookAndFeelException ex) { java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV ERE, null, ex); } //</editor-fold> /* Create and display the form */ java.awt.EventQueue.invokeLater(new Runnable() { public void run() { new BasdatCrawler().setVisible(true); } }); } // Variables declaration - do not modify private javax.swing.JButton btnDBUrlPath; private javax.swing.JButton btnFilePath; private javax.swing.JButton btnStartCrawl; private javax.swing.JFileChooser chooser; private javax.swing.JButton jButton1; private javax.swing.JLabel jLabel2; private javax.swing.JLabel jLabel3; 160 private javax.swing.JLabel jLabel4; private javax.swing.JLabel jLabel5; private javax.swing.JLabel jLabel7; private javax.swing.JPanel jPanel2; private javax.swing.JPanel jPanel3; private javax.swing.JScrollPane jScrollPane1; private javax.swing.JPanel mainPane; private javax.swing.JTextArea txtCrawlingProcess; private javax.swing.JTextField txtDBUrlPath; private javax.swing.JTextField txtFilePath; private javax.swing.JTextField txtLimit; private javax.swing.JTextField txtURL; // End of variables declaration } Plan maestro de pruebas - ONE TWO TREE TABLA 11: Historial de versiones Fecha 13/05/201 6 Versión 1 Autor Edison Moreno Capera John Mairon Román Grajales Organización One Two Tree Descripción Se realiza plan maestro de pruebas al crawler TABLA 12: Información del proyecto Empresa / Organización Proyecto Fecha de preparación Cliente Patrocinador principal Fundación One Two Tree One Two Tree 13/05/2016 Armando Sánchez Nieto Edison Moreno Capera, John Mairon Román Grajales Andrés Mauricio Martínez Hincapié Gerente / Líder de Proyecto Gerente / Líder de Pruebas Edison Moreno Capera, John Mairon Román de Software Grajales 161 TABLA 13: Prueba T01 Dirección web (texto) Nombre: Identificador: T01 valor máximo Valor mínimo Resultados esperados: Se captura la dirección web Resultados obtenidos : Se almaceno la dirección web Estado: Funciona: SI No Funciona: Descripción El usuario debe ingresar la URL de la página que va hacer visitada por el crawler TABLA 14: Prueba T02 Nombre: Valor máximo Ruta de archivos (btnFile) Identificador: T02 Valor mínimo Poder crear carpeta de donde se va almacenar Resultados esperados: toda la información escaneada Resultados obtenidos : Se almaceno la información escaneada Estado: Funciona: SI No Funciona: Descripción El usuario debe ingresar la ruta de almacenamiento donde de se va guardar la información que va hacer extraída de la página, también tiene la opción de crear una carpeta nueva. Y también se le puede dar ubicación a esta carpeta 162 TABLA 15: Prueba T03 Nombre: Limite del crawler (textbox) Identificador: T03 Valor mínimo Valor máximo Resultados esperados: ingresar el límite de profundidad de crawler Puede asignar el límite de profundidad al crawler para que pueda explorar la pagina Resultados obtenidos : Estado: Descripción: Funciona: SI No Funciona: El usuario ingresara el número límite del crawler. Dando la profundidad de exploración de la pagina TABLA 16: Prueba T04 Nombre: Valor máximo Ruta DB URL (btnDbUrl) Identificador: T04 Resultados esperados: Valor mínimo Darle la ruta para almacenar las URL que se han ido visitando Resultados obtenidos : Se pudo dar la ruta para almacenar las URL Estado: Descripción: Funciona: SI No Funciona: El usuario ingresara la ruta de almacenamiento de URL's para ser almacenadas en el computador. así se guardara las rutas de las pagina visitadas 163 TABLA 17: Prueba T05 Nombre: Iniciar Crawler (btnStartCrawl) Identificador: T05 Valor máximo Valor mínimo Resultados esperados: Iniciar el crawler y empezar a explorar la pagina Resultados obtenidos : inicia a explorar la pagina Estado: Descripción: Funciona: SI No Funciona: El usuario le dará inicio al crawler y iniciara la exploración de la página y empezara a guardar la información extraída de la página en el computador. 20. ANEXO I: Conclusiones El proyecto ha sido desarrollado con la intención de minimizar procesos para la fundación ONE TWO TREE. Realizando una investigación teniendo en cuenta, aspectos para escoger un buen gestor documental, interactuando con cada uno de los gestores (ALFRESCO, NUXEO, OPENKM, ORFEO), evidenciando una experiencia con cada uno de ellos y se deja en entrevisto de una forma gráfica, la interacción desde el comienzo que se descarga, hasta su instalación, al terminar esta experiencia se define el gestor OPENKM, que se implanta en la fundación ONE TWO TREE. Se realiza el análisis y se identifica los diferentes tipos y técnicas que hay de construcción de robots de navegación al diseñar e implementar el crawler (robot de navegación), realizando pruebas y ensayos permitiendo detectar posibles fallos, se evidencia los resultados del crawler . 164 21. ANEXO J: Recomendaciones Dentro de un proyecto realizado, siempre se desea que haya una mejora continua del mismo; por lo tanto se deja disponible a futuros estudiantes que tengan interés en el proyecto, se considera interesante investigar otros aspectos relacionados a los gestores de archivos y administración de la información. Extender la investigación orientada a los arboles binarios para identificar la profundidad y los niveles de búsqueda del sitio web. Formas de almacenamiento en la gestión de archivos. 22. ANEXO K: Bibliografía Athento . (s.f.). Document Management. Recuperado el 13 de 05 de 2015, de http://www.athento.com/gestion-documental-inteligente/ CIGEM CONSULTORES S.A.S. (01 de 01 de 2003). CIGEM CONSULTORES S.A.S. Recuperado el 13 de 05 de 2015, de http://cigemconsultores.com/site/ codina, L. (01 de 05 de 1993). Revista internacional cientifica y profesional . Recuperado el 15 de 05 de 2015, de Qué es un sistema de gestión documental: http://www.elprofesionaldelainformacion.com/contenidos/1993/mayo/qu_es_un_sis tema_de_gestin_documental.html García, N. H. (24 de 10 de 2011). Vicios y mal uso del internet y la tecnología. Recuperado el 13 de 05 de 2015, de http://www.gerencie.com/vicios-y-mal-usodel-internet-y-la-tecnologia.html Gonzales, I. R. (05 de 02 de 2002). Monografias : Motores de Busqueda. Recuperado el 13 de 05 de 2015, de http://www.geocities.ws/motoresdebusqueda/inicio.html Google Support . (2015). Google crawlers. Recuperado el 13 de 05 de 2015, de https://support.google.com/webmasters/answer/1061943?hl=en 165 Lamarca Lapuente, M. J. (s.f.). Robots y agentes . Recuperado el 13 de 05 de 2015, de http://www.hipertexto.info/documentos/robot_agent.htm OpenKM. (01 de 01 de 2004). OpenKM. Recuperado el 13 de 05 de 2015, de http://www.openkm.com/es/ Orfeo . (01 de 01 de 2007). Orfeo - Sistema de Gestión Documental. Recuperado el 13 de 05 de 2015, de http://www.orfeolibre.org/inicio/index.php/desarrollo.html Snappdoc. (s.f.). Snappdoc. Recuperado el 13 de 05 de 2015, de http://www.snappdoc.com/ Stark, N. S. (10 de 11 de 2001). MOTORES DE BÚSQUEDA EN INTERNET. Recuperado el 05 de 05 de 2015, de MOTORES DE BÚSQUEDA EN INTERNET: http://www.unlu.edu.ar/~tyr/tyr/TYR-motor/stark-motor.pdf UniversitatPolitecnica de Valencia . (s.f.). Recuperacion de Informacion de la Web . Recuperado el 13 de 05 de 2015, de http://personales.upv.es/ccarrasc/doc/20022003/RIW/AGENTS-SRP.htm Wikipedia. (19 de 03 de 2015). GestionDocumental . Recuperado el 13 de 05 de 2015, de http://es.wikipedia.org/wiki/Gesti%C3%B3n_documental Yahoo. (2015). Slurp. Recuperado el 13 de 05 de 2015, de https://help.yahoo.com/kb/search/slurp-crawling-page-sln22600.html ARCHIVO GENERAL DE LA NACIÓN DE COLOMBIA. Acuerdo No. 047 de 2000, Por el cual se desarrolla el artículo 43 del Capítulo V “Acceso a los Documentos de Archivo”, del AGN del Reglamento General de Archivos sobre “Restricciones por razones de conservación Acuerdo 049 de 2000. Por el cual se desarrolla el artículo del Capítulo 7 “Conservación de Documentos” del Reglamento General de Archivos sobre “condiciones de edificios y locales destinados a archivos”. 166 Acuerdo 056 de 2000. Por el cual se desarrolla el artículo 45, “Requisitos para la Consulta”delcapitulo V, “Acceso a los documentos de archivo”, del reglamento general de archivos. Acuerdo No. 060 de 2001. Por el cual se establecen pautas para la administración de las comunicaciones oficiales en las entidades públicas y las privadas que cumplen funciones públicas Acuerdo No. 039 de 2002. Por el cual se regula el procedimiento para la elaboración y aplicación de las Tablas de Retención Documental en desarrollo del Articulo 24 de la Acuerdo No. 042. Por el cual se establecen los criterios para la organización de los archivos de gestión en las entidades públicas y las privadas que cumplen funciones públicas, se regula el Inventario Único Documental y se desarrollael artículo 21, 22, 23 y 26 Acuerdo No. 02 de 2004. Por el cual se establecen los lineamientos básicos para la organización de fondos acumulados. ván Camargo Sarmiento, U. D. (06 de 12 de 2013). EVOLUCIÓN Y TENDENCIAS ACTUALES DE LOS WEB CRAWLERS. Recuperado el 15 de 04 de 2016, de http://revistas.udistrital.edu.co/ojs/index.php/reving/article/view/5084/6703 manz. (11 de 08 de 2007). Robots.txt : Todo lo que deberia saber. Recuperado el 18 de 04 de 2016, de http://www.emezeta.com/articulos/robots-txt-todo-lo-quedeberia-saber 167