View/Open - Universidad Católica de Pereira

Anuncio
Gestión documental a la Fundación
OneTwoTree
Edison Moreno Capera
John Mairon Román Grajales
Tutor Metodológico
Ingeniero Andrés Mauricio Martínez Hincapié
Universidad Católica de Pereira
Facultad de Ciencias Básicas e Ingeniería
Programa Ingeniería de Sistemas y Telecomunicaciones
Pereira
2015
DEDICATORIA
Le doy gracias a la vida por permitirme alcanzar el sueño de formarme
como persona y como profesional, a mi familia que es mi apoyo y ser el
motor para cada acción que realizo, el motivo que hoy me impulsa a
alcanzar este logro tan importante de mi vida, a mi compañero de tesis,
a mi pareja que me ha apoyado incondicionalmente en el logro de mis
metas, a mis amigos que me dieron una voz de aliento, tutores que de
una u otra forma se han involucrado conmigo en alcanzar este sueño.
Edison Moreno Capera.
Le agradezco a Dios por haberme acompañado y guiado a lo largo de
mi carrera, por ser mi fortaleza en los momentos de debilidad y por
brindarme una vida llena de aprendizajes, experiencias y sobre todo
felicidad, le doy gracias a mi hija por ser mi motor de vida. a mis padres
y hermanos por apoyarme en todo momento, por los valores que me
han inculcado, y por haberme dado la oportunidad de tener una
excelente educación en el trascurso de mi vida, sobre todo por ser un
excelente ejemplo de vida a seguir. A mi pareja sentimental por ser
parte muy importante de mi vida, por haberme apoyada en las buenas
y en las malas, sobre todo por su paciencia y amor incondicional, a mi
compañero de tesis un excelente amigo por haber tenido la paciencia
necesaria y por motivarme a seguir adelante en los momentos de
desesperación.
John Mairon Román Grajales
3
AGRADECIMIENTO
Los autores agradecen a:
Universidad Católica de Pereira de Risaralda, por ser nuestra universidad,
albergarnos por mucho tiempo y hacernos sentir como familia.
Ingeniero Andrés Mauricio Martínez Hincapié, por brindarnos el conocimiento y la
oportunidad de desarrollar nuestra tesis profesional, por darnos la oportunidad de crecer
y aprender cosas nuevas. Agradecemos la confianza, el apoyo, la dedicación y el
tiempo.
Ingeniero Alonso Toro Lazo, nos brindó apoyo cuando más lo necesitamos, no
solamente es un buen profesor y director, si no una excelente persona.
Ingeniero Juan Luis Arias Vargas, nos brindo su conocimiento, su apoyo y solución a las
dificultades.
Arquitecto Armando Sánchez Nieto, al ser la persona encargada de la fundación ONE
TWO TREE, puso en manos de nosotros su proyecto y su confianza, el apoyo por cada paso
que dimos y la amistad que consolidamos por el transcurso del tiempo.
Cada uno de los profesores de la Universidad Católica de Pereira, Por haber compartido
con nosotros sus conocimientos y sobre todo su amistad.
4
TABLA DE CONTENIDO
Pág.
1.
INTRODUCCIÓN ............................................................................................ 14
2.
PLANTEAMIENTO DEL PROBLEMA ............................................................. 15
3.
JUSTIFICACIÓN ............................................................................................. 17
4.
ALCANCES ..................................................................................................... 17
5.
SEGMENTO DE CLIENTES ........................................................................... 18
6.
VIABILIDAD..................................................................................................... 18
7.
CONSECUENCIAS ......................................................................................... 19
8.
OBJETIVO....................................................................................................... 20
8.1.
OBJETIVO GENERAL ............................................................................. 20
8.2.
OBJETIVO ESPECIFICOS ....................................................................... 20
9.
MARCO DE REFERENCIA. ............................................................................ 21
9.1.
MARCO TEÓRICO ................................................................................... 21
9.1.1.
ANTECEDENTES INVESTIGATIVOS ............................................... 21
9.1.2.
ASPECTOS GENERALES CRAWLER .............................................. 33
9.2.
MARCO CONTEXTUAL. .......................................................................... 36
9.3.
MARCO CONCEPTUAL ........................................................................... 39
9.3.1.
9.4.
ASPECTOS GENERALES DE LA GESTIÓN DOCUMENTAL .......... 39
METODOLOGÍA ....................................................................................... 47
10.
PERSPECTIVA DESDE LA LEY.................................................................. 48
11.
RESULTADOS ANEXOS ............................................................................. 52
5
12.
ANEXO A: 7
RECOMENDACIONES A TENER EN CUENTA PARA
SELECCIONAR UN SOFTWARE DE GESTIÓN DOCUMENTAL ......................... 53
13.
ANEXO B:
ESPECIFICACIONES E INSTALACION DE LOS SOFTWARE
LIBRE DE GESTION DOCUMENTAL ................................................................... 57
14.
ANEXO C: Implantación del Gestor documental a la fundación ONE TWO
TREE 104
15.
CONCLUSIÓN ........................................................................................... 128
16.
ANEXO E: Bibliografía ............................................................................... 129
17.
ANEXO F: Que es un crawler .................................................................... 129
18.
ANEXO G: Funcionalidad de un crawler .................................................... 130
19.
ANEXO H: Diseño, desarrollo y pruebas del crawler ................................. 132
20.
ANEXO I: Conclusiones ............................................................................. 164
21.
ANEXO J: Recomendaciones .................................................................... 165
22.
ANEXO K: Bibliografía ............................................................................... 165
6
LISTA DE ILUSTRACIONES
Pág.
ILUSTRACION 1: Arquitectura OpenKM ............................................................... 59
ILUSTRACION 2: Cambiar puerto ......................................................................... 64
ILUSTRACION 3: Interfaz de usuario de OpenKM ................................................ 65
ILUSTRACION 4: Formulario para crear usuarios ................................................. 66
ILUSTRACION 5: Ingreso usuario chrome ............................................................ 67
ILUSTRACION 6: Ingreso usuario Explorer ........................................................... 67
ILUSTRACION 7: Alfresco arquitectura ................................................................. 69
ILUSTRACION 8: Alfresco basado en java ............................................................ 69
ILUSTRACION 9: Alfresco repositorio ................................................................... 71
ILUSTRACION 10: Acciones Alfresco ................................................................... 72
ILUSTRACION 11: Opciones de configuración...................................................... 75
ILUSTRACION 12: Configuración del puerto tomcat ............................................. 75
ILUSTRACION 13: Interfaz Alfresco ...................................................................... 76
ILUSTRACION 14: Formulario para crear usuarios ............................................... 77
ILUSTRACION 15: Problemas con el cliente ......................................................... 78
ILUSTRACION 16: Nuxeo plataforma.................................................................... 80
ILUSTRACION 17: Nuxeo EMC............................................................................. 80
ILUSTRACION 18: Nuxeo panel de control ........................................................... 87
ILUSTRACION 19: Configuración de inicio ............................................................ 87
ILUSTRACION 20: Asignación IP del servidor....................................................... 88
ILUSTRACION 21: Ingreso al servidor Nuxeo ....................................................... 89
7
ILUSTRACION 22: Interfaz de usuario de Nuxeo .................................................. 89
ILUSTRACION 23: Formulario para crear usuarios ............................................... 90
ILUSTRACION 24: Ingreso usuario chrome .......................................................... 91
ILUSTRACION 25: interfaz de cliente nuxeo ......................................................... 91
ILUSTRACION 26: Ingreso usuario Explorer ......................................................... 92
ILUSTRACION 27: Funcionamiento ORFEO ......................................................... 94
ILUSTRACION 28: Configuración Bios ................................................................. 97
ILUSTRACION 29: Ingreso maquina virtual ........................................................... 97
ILUSTRACION 30: Opciones de ingreso Ubuntu................................................... 98
ILUSTRACION 31: Librería Orfeo .......................................................................... 98
ILUSTRACION 32: IP del servidor ......................................................................... 99
ILUSTRACION 33: Ingreso al servidor Orfeo ........................................................ 99
ILUSTRACION 34: Interfaz de usuario de Orfeo ................................................. 100
ILUSTRACION 35: Formulario para crear usuarios ............................................. 101
ILUSTRACION 36: Permisos de usuario ............................................................. 101
ILUSTRACION 37: Ingreso de cliente Orfeo ........................................................ 102
ILUSTRACION 38: Cambio de clave ................................................................... 102
ILUSTRACION 39: Ingreso usuario chrome ........................................................ 103
ILUSTRACION 40: Ingreso usuario Internet Explorer .......................................... 103
ILUSTRACION 41: Importar carpetas OpenKM ................................................... 104
ILUSTRACION 42: Visualización ......................................................................... 105
ILUSTRACION 43: Carpeta okm:root .................................................................. 105
ILUSTRACION 44: Crear carpeta ........................................................................ 106
8
ILUSTRACION 45: Opción editar carpeta ............................................................ 106
ILUSTRACION 46: Búsqueda básica de carpetas. .............................................. 106
ILUSTRACION 47: Ventana: filtrado por carpeta. ................................................ 107
ILUSTRACION 48: Búsqueda básica de documentos. ........................................ 107
ILUSTRACION 49: Búsqueda de documentos similares. .................................... 108
ILUSTRACION 50: Opción mover documento y/o carpetas. ............................... 108
ILUSTRACION 51: Selección de carpeta a (Mover) ............................................ 109
ILUSTRACION 52: Copiar documentos y/o carpetas. ......................................... 109
ILUSTRACION 53: Seleccionar carpeta destino a copiar .................................... 110
ILUSTRACION 54: Opción Eliminar..................................................................... 110
ILUSTRACION 55: Opción Editar ........................................................................ 111
ILUSTRACION 56: Icono actualizar documentos. ............................................... 111
ILUSTRACION 57: Ventana actualizar documentos. ........................................... 112
ILUSTRACION 58: Icono cancelar edición .......................................................... 112
ILUSTRACION 59: Palabras claves..................................................................... 113
ILUSTRACION 60: Descarga-clic derecho .......................................................... 113
ILUSTRACION 61: Icono de descarga ................................................................ 114
ILUSTRACION 62: Icono de selección ................................................................ 114
ILUSTRACION 63: Documentos personales ....................................................... 115
ILUSTRACION 64: Inserción de notas................................................................. 116
ILUSTRACION 65: Administración de archivos ................................................... 116
ILUSTRACION 66: Selección de usuario ............................................................. 117
ILUSTRACION 67: Selección de usuario ............................................................. 118
9
ILUSTRACION 68: Historial de documentos específicos ..................................... 118
ILUSTRACION 69: búsqueda avanzada .............................................................. 119
ILUSTRACION 70: Registro de actividades ......................................................... 120
ILUSTRACION 71: Funcionar PDF ...................................................................... 120
ILUSTRACION 72: Envió de documentos adjuntos ............................................. 121
ILUSTRACION 73: Ejemplo de documentos encriptados .................................... 122
ILUSTRACION 74: Icono escáner ....................................................................... 122
ILUSTRACION 75: Scan Y Upload ...................................................................... 122
ILUSTRACION 76: Estadísticas........................................................................... 123
ILUSTRACION 77: Estadísticas........................................................................... 124
ILUSTRACION 78: Estadísticas........................................................................... 124
ILUSTRACION 79: Parámetros especiales en la administración de usuarios ..... 125
ILUSTRACION 80: Columnas adicionales ........................................................... 126
ILUSTRACION 81: Elementos configurar para habilitar la pre visualización ...... 127
ILUSTRACION 82: Listado de opciones de configuración ................................... 127
ILUSTRACION 83: Pre visualización de imágenes.............................................. 127
ILUSTRACION 84: Funcionalidad de un crawler ................................................. 131
ILUSTRACION 85: Diagrama de actividades ...................................................... 135
ILUSTRACION 86: Diagrama de clases .............................................................. 136
ILUSTRACION 87: Interfaz crawler ONE TWO TREE ......................................... 136
ILUSTRACION 88: Imágenes Script ONE TWO TREE ....................................... 145
10
LISTA DE TABLAS
Pág.
TABLA1: Descripción de herramienta Orfeo .......................................................... 28
TABLA2: Gestión documental ................................................................................ 39
TABLA 3: Caso de uso 1 ..................................................................................... 132
TABLA 4: Caso de uso 2 ..................................................................................... 132
TABLA 5: Caso de uso 3 ..................................................................................... 133
TABLA 6: Caso de uso 4 ..................................................................................... 133
TABLA 7: Caso de uso 5 ..................................................................................... 134
TABLA 8: Caso de uso 6 ..................................................................................... 134
TABLA 9: Historial de versiones .......................................................................... 161
TABLA 10: Información del proyecto ................................................................... 161
TABLA 11: Prueba T01 ........................................................................................ 162
TABLA 12: Prueba T02 ........................................................................................ 162
TABLA 13: Prueba T03 ........................................................................................ 163
TABLA 14: Prueba T04 ........................................................................................ 163
TABLA 15: Prueba T05 ........................................................................................ 164
11
Resumen
El presente proyecto, surge como trabajo de grado llevando a la práctica un
proceso a una implementación de sistema de gestión documental, donde se
pretende realizar un estudio de los diferentes sistemas de gestión documental y
diseñando un clasificador de información web de la fundación ONE TWO TREE.
Las inconsistencias en guardar, analizar y buscar la información, ha generado a
la fundación ONE TWO TREE, la idea y la necesidad de realizar un estudio del
sistema de gestión documental y de diseñar el clasificador de información web,
donde la información para el usuario es importante, esta idea de generar una
solución, puede aportar a la ecología y tecnología de la región Risaralda, y de esta
manera cada persona tendrá la posibilidad de tener su información sin perdida,
ordenada y relevante para cada uno de ellos.
En este proceso se tiene el objetivo de Implantar un sistema de gestión
documental adaptado a la empresa ONE TWO TREE , incluyendo un clasificador
de información web basado en técnicas de exploración Crawler , la cual tiene como
actividad estudiar diferentes herramientas de gestión documental, el estudio,
diseño e implementación del clasificador.
Palabras
claves:
Crawler,
OpenKM,
Documental.
12
Alfresco,
Orfeo, Nuxeo,
Gestión
ABSTRACT
This project comes as degree work by implementing a process to implement
document management system, which aims to carry out a study of the different
document management systems and designing classifier web information of the
foundation ONE TWO TREE.
The inconsistencies in store, analyze and seek information, the foundation has
generated TWO ONE TREE, the idea and the need for a study of the system of
document management and web design the classified information, where the
information is for the user it is important, with this idea is to generate a solution to
bring ecology and technology Risaralda region, so each person will have a chance
to have their information without loss, orderly and relevant to each of them.
This process aims to implement a document management system adapted to the
company TWO ONE TREE, including a classifier web based information
exploration techniques Crawler. Which it is to study different business document
management tools, the study, design and implementation of the classifier.
Key words: Crawler, OpenKM, Alfresco, Orfeo, Nuxeo, Document Management.
13
1. INTRODUCCIÓN
En el mercado se ofrecen algunos programas de carácter privativo. En este
proyecto, se realizara el estudio de los diferentes tipos de software libre,
analizando los aspectos de cada software, la instalación de cada uno de ellos, la
experiencia y las dificultades de cada uno, se analizara los aspectos del crawler,
en la cual se tendrán en cuenta antecedentes, en qué contexto se manejan, y las
empresas que manejan software de gestión documental y de crawler.
Dentro de los factores que más importancia tiene para su desarrollo y exitoso
crecimiento de una empresa y aplicación, es la forma de manejar, manipular y
difundir los datos que se maneje dentro de ella. Por eso, es fundamental tener
una buena forma de organizarla y de que los directamente interesados puedan
acceder a ella de forma rápida, efectivamente y lo más actualizada posible.
(Para la cual) Se espera tener un software definido para implantar y
conjuntamente diseñar el crawler para dar una solución al almacenamiento y
lectura de la información para el proyecto ONE TWO TREE
En el desarrollo del trabajo se reflejara la importancia de que no solamente la
fundación ONETWO TREE, si no varias organizaciones por ley, requieren de un
gestor documental y aportar a la ecología del país.
14
2. PLANTEAMIENTO DEL PROBLEMA
El internet y sobre todo las redes sociales ostentan un enorme tráfico
de
información (Videos, Animaciones, Imágenes, Texto, Sonido, entre otros), que en
su mayoría, resulta ser información
no deseada o que carece de temas de
verdadera relevancia para cada uno de los usuarios de dichas plataformas; lo
que conlleva a pérdida de tiempo y distracción innecesarios.
Las empresas que manejen grandes volúmenes de datos no son ajenas a esta
problemática, así mismo lo es para cada usuario desde su computador o
dispositivo móvil, ya que en el preciso momento en el que la información se
convierte en el factor principal para cada uno de nosotros o de una organización,
es necesario mantener un registro ordenado que permita acceder a dicha
información de manera eficiente y rápida.
Cuando un usuario logra identificar la información de mayor interés, puede utilizar
algunos métodos alternativos para mantener un registro del enlace donde está
contenido el tema de interés, como por ejemplo:
Botón de favoritos de los navegadores para internet:
Esta función permite guardar un enlace con la dirección de internet, información
que queda en una carpeta en el ordenador, y donde se corre el riesgo de perderse
por causas como la restauración del PC o restauración del historial del explorador
y la carpeta que contiene dicha información.
En su defecto cuando los enlaces quedan archivados en el PC y enviados a la
nube, se corre el riesgo de que la información no haya sido actualizada de forma
automática y se pierda el rastro de los enlaces guardados recientemente.
La función de favoritos del navegador es muy popular pero no permite ordenar la
información
de una manera ágil, en
la que el usuario pueda visualizar la
información de una forma rápida.
15
Un ejemplo de ello sería lo siguiente:
La página http://www.ucp.edu.co/ posee una publicación que es de interés, al dar
favoritos en la barra del navegador este enlace se guardaría como:
http://biblioteca.ucp.edu.co/OJS/index.php/arquetipo/article/view/2203
La cual quedará en la carpeta creada por el usuario llamada: Arquitectura.
Si el usuario realiza esta acción de manera frecuente encontrará un número de
filas y carpetas donde se mostrará el texto capturado, información que no aporta a
la identificación del tema que el usuario ha registrado. Tampoco ofrece una pre
visualización que permita recordar la sección de la página que motivó la acción de
registro; por lo que el usuario tendrá que realizar una apertura uno a uno de cada
enlace para encontrar la información deseada, lo que suele ser bastante
engorroso.
Muchas veces los enlaces a páginas web son clausurados, eliminados, borrados,
jaqueados
o las publicaciones son borradas y se pierde el rastro de la
información.
Adicionalmente esta función, no ofrece la posibilidad de ordenar la información de
mayor interés y relevancia para el usuario, a la hora de buscar la información no
se encuentra una base de datos para una mejor administración de los datos, no
tiene la forma de reconocer, descargar y clasificar el tipo de archivo solicitado por
el usuario en dicha página.
16
3. JUSTIFICACIÓN
La investigación de dicho planteamiento busca encontrar una herramienta que
aporte una mejor experiencia para el usuario de internet y de las redes sociales,
al momento de interactuar con los grandes volúmenes de información que en
muchas ocasiones genera pérdida de tiempo por su baja calidad de contenido.
Evita la tenencia de documentos físicos, y la fácil pérdida de información de mayor
interés. La novedad de dicha herramienta simplifica, revisa los tipos de archivos
que se encuentren en la página, ya sea una imagen, video, texto, entre otros. Por
medio de URL de las páginas que el usuario decida guardar descarga el tipo de
archivo y ordena, en lo cual se hace más accesible a los datos de importancia.
4. ALCANCES
Los alcances que la investigación tendrá a corto plazo son los de poder brindar
una herramienta en la cual las personas u organizaciones interactúen a través de
una conciencia global colectiva, que permitirá que la
información catalogada
garantice una mayor calidad de contenido según preferencias de cada usuario.
A mediano plazo los alcances tendrán gran influencia en la parte emocional e
intelectual de cada usuario ya que el contenido de la plataforma resaltará la
información de mayor relevancia, interés científico, creativo, innovador y
actualidad mundial,
retroalimentando
de
una conciencia global colectiva de una
forma motivante y positiva, generando un espacio sano de escape, que evite tener
contacto con emociones como la frustración, el miedo,
el temor, el estrés,
desinterés por los valores, que son tan comunes en internet, las redes sociales y
otros medios de comunicación.
Los alcances a largo plazo son los de consolidar lo que se efectuó
en los
procesos anteriores y que las personas tengan una solides a la hora de tener su
información personal y de importancia con una buena administración de datos.
17
5. SEGMENTO DE CLIENTES
Personas de todas las edades y géneros con acceso a internet a través de
dispositivos móviles o a través de ordenadores PC; que buscan una herramienta
que les permita ordenar, catalogar y compartir la información más relevante de
internet o de las redes sociales aportando o reafirmando de alguna manera un
conocimiento o perspectiva del mundo en el que vive.
6. VIABILIDAD
Entidades como la universidad Católica de Pereira, a través de la facultad de
Ciencias Básicas e Ingeniería, con el programa de Ingeniería de Sistemas y
Telecomunicaciones, la empresa Inngaia y la ONG OneTwo Tree ,más los
acuerdos realizados con los estudiantes de Ingeniería de sistemas Edison Moreno
y John Mairon Román son fundamentales para el éxito del proceso, ya que cada
una de las partes en alianza ofrece su capacidad técnica, capital humano y
capital financiero para el logro de los objetivos propuestos.
Se cuenta con una capacidad tecnológica
permite poner a disposición el software
e informática y de cómputo,
que
y permite llegar a una gran cantidad de
usuarios que están conectados a estas plataformas.
Una viabilidad financiera se realizará a través de un desarrollo de ingresos o
egresos que permitirá apreciar
el desarrollo del software por medio de tabla
ingresos o egresos operacionales.
El comité evaluador dió a conocer sus opiniones y sugerencias, de viabilidad del
proyecto ONE TWO TREE, la cual sugiere limitar el proyecto, se dividió en dos
temas particulares.
1. Gestión documental.
2. Crawler (robot navegador)
18
Los estudiantes decidieron incluir los dos temas profundizando en el tema del
crawler(robot navegador).
7. CONSECUENCIAS
Se da solución a un segmento de la idea aportada por la empresa ONE TWO
TREE, se deja una evidencia de los temas, aporta al desarrollo tecnológico y
ecológico en la región.
El usuario por medio del uso tecnológico (Celulares, computadoras, entre otros)
puede optimizar los recursos como el tiempo, espacio, trabajos pesados, entre
otros. Con la herramienta, se puede simplificar el modo de almacenamiento y de
búsqueda de información que sea importante para dicha persona.
Se presentan varios problemas por los derechos de autor y legislación, a la hora
de inspeccionar y guardar la información.
Para las personas que por condiciones económicas no puedan acceder a las
actuales tecnologías, situaciones como la disponibilidad de información, e incluso
para la vida laboral, puede verse afectada de manera negativa, alejándolas de un
mercado competitivo.
19
8. OBJETIVO
8.1. OBJETIVO GENERAL
Implantar un sistema de gestión documental adaptado a la empresa ONE TWO
TREE, incluyendo un clasificador de información web basado en técnicas de
exploración Crawler.
8.2. OBJETIVO ESPECIFICOS
 Analizar y determinar los diferentes tipos de software libre para la gestión
documental (realizar artículo).
 Implantar el software dependiendo al análisis del anterior objetivo.
 Analizar e identificar los diferentes tipos y técnicas que hay de construcción
de robots de navegación.
 Diseñar e implementar un crawler (robot de navegación).
 Realizar pruebas y ensayos que permitan detectar posibles fallos en el
crawler desarrollado.
20
9.
9.1.
MARCO DE REFERENCIA.
MARCO TEÓRICO
9.1.1. ANTECEDENTES INVESTIGATIVOS
9.1.1.1.
ASPECTOS GENERALES DE UN PROGRAMA DE GESTIÓN
DOCUMENTAL
“Dos instituciones de carácter internacional han contribuido a que profesionales y
organismos afronten decididamente los problemas que conlleva la gestión de
documentos: la Organización de las Naciones Unidas para la Educación, la
Ciencia y la Cultura (UNESCO) y el Consejo Internacional de Archivos (CIA)”
1
LLANSÓ SANJUAN, Joaquim. Sistemas archivísticos y gestión de documento:
ponencia. 14 Congreso Internacional de Archivos (Sevilla: Consejo Internacional
de Archivos, 2000); p. 32.
La gestión de documentos fue “concebida en los Estados Unidos alrededor de los
años 50” 2 DOYLE. Murielle y FRENIERE, André. La preparación de manuales de
gestión de documentos para las administraciones públicas de acuerdo con
LLANSO SANJUÁN3, Joaquim. Gestión de documentos: definición y análisis de
modelos. Bergara: Irargi, fue reconocida de forma oficial en ese país, mediante
legislación, a mediados del Siglo XX. Su adopción supuso una auténtica
revolución en la teoría y en la práctica archivística, especialmente a partir de la
formulación del concepto de ciclo de vida de los documentos, pues se hizo
evidente un hilo conductor que mostraba el tránsito de los documentos desde que
estos
se
creaban
hasta
que
debían
ser
destruidos
o
conservados
permanentemente atendiendo a su valor histórico.
1
LLANSÓ SANJUAN, Joaquim. Sistemas archivísticos y gestión de documentos: ponencia. 14 Congreso
Internacional de Archivos (Sevilla: Consejo Internacional de Archivos, 2000); p. 32.
2
DOYLE. Murielle y FRENIERE, André. La preparación de manuales de gestión de documentos para las
administraciones públicas. París: UNESCO, 1991. p. 54
3
LLANSO SANJUÁN, Joaquim. Gestión de documentos: definición y análisis de modelos. Bergara: Irargi,
1991. p. 234
21
A partir de la Segunda Guerra Mundial, en Europa y los Estados Unidos de un
modo particular se empiezan a plantear problemas relacionados con la inflación de
papel en el seno de las administraciones y la búsqueda de la eficacia y la
economía en la gestión de los asuntos públicos y en relación con el ciudadano;
ante esta situación comienzan a adaptar a su idiosincrasia administrativa
particular, las soluciones formuladas y experimentadas en los Estados Unidos.
En Colombia, el Reglamento General de Archivos – Acuerdo 07 de 1994 expedido
por el Archivo General de la Nación, contempló el término Gestión de Documentos
y desarrolló el tema en aspectos como la responsabilidad frente a la gestión
documental, organización de archivos administrativos, sistemas empleados para la
gestión de documentos, valoración documental, transferencias de documentos con
valor permanente y eliminación de documentos.
En 1996 el Archivo General de la Nación de Colombia en su publicación “Gestión
documental: bases para la elaboración de un programa”, brinda algunos
lineamientos generales para la implementación de un programa de gestión
documental.
Con la Ley 594 de 2000 – Ley General de Archivos, el tema de la gestión
documental queda consignado en el Título V, Artículos 21 al 26, en los que se
establece que las entidades públicas deberán elaborar programas de gestión
documental, se señalan los procesos archivísticos, la formación de archivos a
partir del concepto de archivo total, la obligatoriedad de las tablas de retención, la
reglamentación de los documentos contables, notariales y otros y la obligación de
los inventarios documentales.
En las normas complementarias a la Ley 594 de 2000 – Ley General de Archivos,
se continua con la formulación de la política archivística nacional, la
reglamentación de metodologías para la organización, conservación y difusión de
los documentos, el desarrollo de elementos técnicos y normativos del Sistema
Nacional de Archivos, la sensibilización y regulación sobre la importancia de los
22
archivos para la administración y la cultura así como, la conservación y
preservación del patrimonio documental.
El uso del ordenador en la gestión documental se inicia en la práctica a partir de la
experiencia de las grandes bibliotecas nacionales anglófonas, la Biblioteca del
Congreso de los Estados Unidos de América y la British Library, que en los años
60
del
siglo
XX
crean
el
formato
bibliográfico
MARC
(Machine
ReadableCataloguing) o catalogación legible por máquina, para sus bases de
datos. Unos años más tarde el uso de las tecnologías de información y
comunicación se hizo común en la administración pública y privada, con el uso
generalizado de bases de datos y la aparición de los procesadores de textos y
otras aplicaciones ofimáticas.
En la actualidad, coexisten en el mundo los más diversos sistemas de gestión
documental: desde el simple registro manual de la correspondencia que entra y
sale, hasta los más sofisticados sistemas informáticos que manejan no sólo la
documentación administrativa propiamente tal como venga ella en papel o en
formato electrónico, sino que además controlan los flujos de trabajo del proceso de
tramitación de los expedientes, capturan información desde bases de datos de
producción, contabilidad y otros, enlazan con el contenido de archivos, bibliotecas,
centros de documentación y permiten realizar búsquedas sofisticadas y recuperar
información de cualquier lugar (Wikipedia, 2015).
Las siguientes empresas presentan productos o servicios que utiliza la gestión
documental.
9.1.1.2.
EMPRESAS QUE TRABAJAN CON PRODUCTOS Y SERVICIOS
DE GESTIÓN DOCUMENTAL
9.1.1.2.1. CIGEM CONSULTORES S.A.S
Está comprometida con satisfacer las necesidades y expectativas de los clientes,
suministrando soluciones integrales en el manejo de sus archivos, incorporando
tecnología avanzada en todos campos garantizando su eficacia y eficiencia en el
23
tiempo para mantenernos como líderes en servicio (CIGEM CONSULTORES
S.A.S, 2003). Trabaja con la herramienta SNAPDOC.
HERRAMIENTA SNAPPDOC. Snappdoc es una herramienta de radicación
electrónica de documentos, que le permite acceder y disponer de su
correspondencia en línea desde cualquier lugar y en cualquier momento.
CARACTERISTICAS: SnappDoc permite gestionar, administrar y analizar los
procesos de radicación, indexación, identificación, digitalización, organización y
distribución electrónica de los documentos que entran y salen de su compañía día
a día.
Dispone de una interfaz intuitiva que le permite indexar(digitar) los datos comunes
que se deben registrar cada vez que ingresan o salen documentos en la unidad de
correspondencia en su compañía.
Permite distribuir y transmitir los documentos previamente digitalizados, con el fin
de ser entregados a sus respectivos destinatarios dentro de su organización.
Consulta y administra la correspondencia de toda la compañía en una sola
plataforma disponible 24/7 los 365 días del año.
Utiliza SnappDoc desde el dispositivo preferido, en cualquier lugar y en cualquier
momento.
TRAZABILIDAD Y GESTIÓN
 Mantener el control total de los documentos que entran y salen de la
compañía.
 Crea y gestiona los reportes de su correspondencia.
24
 Toda la correspondencia que radica en Snappdoc lleva consigo una
etiqueta con un código QR y datos principales con el fin de generar la
trazabilidad del proceso.
RESPONSABLE Y SOSTENIBLE
 Ahora se podrá utilizar solo documentos digitales en las compañías.
 Digitalizar los documentos y empieza la era de ¡CERO PAPEL! Snappdoc
es el mejor aliado.
 Con Snappdoc contribuye al cuidado del planeta.
FLEXIBLE Y ADMINISTRABLE
 Con Snappdoc dispone de cuatro perfiles de usuario para que se administre
la unidad de correspondencia:
 Súper Administrador
 Administrador de Sede
 Radicado
 Destinatario Final
9.1.1.2.2. ATHENTO
Smart Document Management- permite a las empresas automatizar procesos
relacionados
con
la captura,
gestión,
almacenamiento
y
distribución
de
documentos. A diferencia de otros sistemas, Athento permite a las compañías
contar con un proceso de Enterprise Content Management integrado en sus
diferentes fases.
¿Qué es Smart Document Management?
La Gestión Documental Inteligente o "Smart Document Management" es la
aplicación de nuevas tecnologías como la Semántica, el procesamiento de
imágenes y del lenguaje natural a la Gestión de los Documentos y del
Conocimiento, de esta forma automatiza tareas administrativas relacionadas con
25
la captura y clasificación de documentos o el procesamiento de la información que
hay en documentos no estructurados.
Smart Document Management implica además resolver la problemática de la
Gestión de Documentos y de Contenidos Empresariales desde una perspectiva
más integral, es decir, resolviendo las necesidades en todas las fases de ciclo de
vida de los documentos. Athento es una aplicación de Smart Document
Management que permite a las empresas cubrir las necesidades de gestión y de
captura de documentos.
Cómo funciona la Gestión Documental Inteligente de Athento?
Athento -Smart Document Management- permite a las empresas automatizar
procesos relacionados con la captura, gestión, almacenamiento y distribución de
documentos, a diferencia de otros sistemas, Athento permite a las compañías
contar con un proceso de Enterprise Content Management integrado en sus
diferentes fases.
Con Athento, una empresa puede obtener la funcionalidad de un potente sistema
de gestión documental, más toda la funcionalidad de un sistema de captura y la
posibilidad de mediante módulos cubrir también necesidades específicas de
Distribución, Preservación y Gestión de Procesos de Negocio -BPM-.
Para las empresas esto significa una reducción importante de costes y un sistema
de gestión documental global robusto e integrado en su sistema de información.
Athento ha sido desarrollado mediante módulos, sus dos módulos fundamentales
son el módulo de Captura y el módulo ECM. Estos dos módulos, integrados de
forma nativa pero independiente, cubren las fases de Captura, Almacenamiento,
Gestión y parte de la Distribución, para el resto de fases o desarrollo de disciplinas
específicas dentro de las fases (como el caso de BPM), Athento aporta una
plataforma que provee servicios modularizados que pueden ser utilizados para la
26
adaptación de la herramienta o la satisfacción de necesidades más específicas de
Distribución, Gestión de Records, o Business Process Management por ejemplo.
Qué ventaja aporta la Gestión Documental Inteligente?
Estos sistemas tienden a mejorar aspectos de la gestión de contenidos
empresariales (ECM) tales como la captura, las búsquedas y la gestión.

Reducción a 0 del tiempo en entrada manual de metadatos: Extraer
información del contenido del documento y utilizarla para identificar,
describir y distinguir un documento ocupa el tiempo de los trabajadores
cuando podría hacerse de forma automática.

Reducción
a
0
del
tiempo
dedicado
a
la
clasificación
de
documentos: Identificar el tipo de activo digital que estamos manejando y
guardarlo en su respectiva ubicación, no tiene que ser una tarea realizada
por personas.

Hacer llegar la información a quién la necesita: Ya sea dirigiendo
documentos a través de un flujo de trabajo o enviando información extraída
de documentos a sistemas externos como SAP, Navision, Open Bravo u
Open ERP.

Eliminar pérdidas de tiempo en búsquedas: Conseguir que un software
busque documentos y contenidos de las misma manera en que lo haría un
humano gracias a la semántica, significa búsquedas más precisas y por lo
tanto menos tiempo desperdiciado. (Athento).
9.1.1.2.3. SKINATECH
Es una empresa de base tecnológica que provee soluciones integrales a
problemas de manejo de información de empresas basadas en servicios de
consultoría especializada, soporte a soluciones, Infraestructura administrada y
Hardware o Software appliances, mediante su herramienta
27
Orfeo (2007).ORFEO. Es un sistema de Gestión Documental y de procesos
desarrollado inicialmente por la Superintendencia de Servicios Públicos
Domiciliarios (SSPD) en Colombia, licenciado como software libre bajo
licencia GNU/GPL para compartir el conocimiento y mantener la creación
colectiva.
Permite incorporar, la gestión de los documentos a los procesos de cualquier
organización, automatizando procedimientos con importantes ahorros en tiempo,
costos y recursos tales como toners de impresora, papel, fotocopias, entre otros,
así como el control sobre los documentos.
Además de la SSPD, Orfeo está siendo utilizado y/o implementado en un
sinnúmero de entidades tanto públicas como privadas que reúnen ya más de
15000 usuarios y está siendo estudiado su uso por parte de entidades y
organizaciones en otras partes del mundo gracias a su filosofía de Software Libre.
Esta herramienta puede instalarse en cualquier sistema Operativo (GNU/Linux,
Unix, Windows,...), con diferentes bases de datos (PostgreSQL, Oracle y MS SQL
Server), además maneja múltiples tipos de Formatos (ODT, XML, DOC), logrando
así obtener independencia de plataforma tecnológica y reducción de costos en la
implementación.
TABLA1: Descripción de herramienta Orfeo
Funcionalidad
Descripción
Radicación de
entrada
Por medio de este módulo, se reciben todos los documentos
de la entidad estos son procesados y enviados a su destino
inicial (jefatura de cada dependencia). En este proceso se
digita la información básica del documento al cual se le
asignará un archivo digital (imagen escaneada).
Módulo de
digitalización
Es una aplicación cliente servidor que digitaliza los
documentos recibidos y los asocia al registro creado desde el
módulo de radicación de entrada.
28
Funcionalidad
Descripción
El cliente es una herramienta de uso intuitivo similar a un
Web-Mail. La herramienta le permite al usuario administrar
diferentes carpetas predefinidas o personalizadas, donde se
almacenan sus documentos de trabajo. El cliente permite
ordenar o filtrar documentos, facilitando la ubicación rápida
Interfaz de Usuario
de estos, así mismo es posible desde el cliente definir y
Final
conformar expedientes que le permitan a la entidad vincular
documentos que están relacionados entre sí. Desde el
cliente, el usuario podrá acceder a la imagen digitalizada de
un documento o ingresar en un módulo de vista general con
el fin de conocer más información del mismo.
Gestión del
Documento
A través de este módulo, se puede conocer en detalle
información del documento, el flujo de trabajo que ha tenido
éste desde su ingreso al sistema, se pueden modificar
algunos datos iníciales del registro, tipificarlo, clasificarlo y
asociarlo a las tablas de retención documental relacionadas
con las funciones y procesos de la entidad, así mismo se
puede asociar aquí un documento a un expediente, anexarle
nuevos documentos o solicitar el físico que reposa en
archivo. Además es posible programar alarmas para el flujo
documental que se reflejan visualmente en una carpeta
denominada agendados.
La radicación de salida es un módulo que puede ser utilizado
para dar respuesta a un documento de entrada o para
generar una comunicación nueva. Estos documentos de
salida pueden ser notificaciones, pliegos de cargos, y otros
producidos por la entidad.
Radicación de
Salida
Otra funcionalidad de este módulo es la de generación de
documentos de salida en forma masiva utilizando
documentos elaborados con formatos .odtó .doc y un archivo
asociado .csv, generando los respectivos radicados desde
cualquier dependencia y haciendo uso de la radicación
unificada de la entidad.
Adicional a la radicación de salida el sistema puede ser
parametrizado para realizar cualquier tipo de radicación que
permita identificar un grupo general de documentos como los
memorandos, resoluciones, circulares, entre otros., los
cuales deban ser numerados para el respectivo control en la
entidad.
29
Funcionalidad
Descripción
Radicaciones de
Documentos
Adicionales
Orfeo permite que cada entidad parametrize los tipos
documentales que quiere que el sistema maneje, controlando
las secuencias como la entidad lo estime conveniente. Ej.
Resoluciones, Circulares, Memorandos, entre otros.
Traslado de
Documentos
Los documentos se pueden trasladar de un usuario a otro
con niveles de control definidos por las áreas que se
establezcan, entre estos traslados se incluye el envío de
correspondencia que tiene origen cuando son radicados
documentos para salida, estos pasan a una carpeta
predefinida llamada impresión, a la cual una o varias
personas que tienen este permiso lo imprimen y lo envían al
área de correspondencia para su trámite respectivo. Una vez
recibido el documento en el área de correspondencia, es
procesado para su posterior envío, teniendo en cuenta las
especificaciones de trabajo manejadas por la empresa de
correo, generando planillas y guías para las modalidades de
correo normal o certificado.
Cuenta además este módulo con una sección de devolución
de correo para retomar documentos que no pudieron ser
entregados por alguna razón. Los usuarios encargados de
este proceso en cada dependencia, deciden si los
documentos son archivados o reenviados. Cada usuario
puede conocer los detalles de envío del documento desde su
bandeja de entrada.
Este módulo permite procesar las solicitudes de documentos
físicos para entregarlos a los funcionarios solicitantes,
controlando de esta forma donde está cada documento y el
Archivo y Préstamo tiempo que dura en poder de los funcionarios, a través de
de Documentos diferentes reportes, brindando también la posibilidad de
clasificar los documentos físicos dependiendo de los datos
ingresados por el usuario desde la sección de expedientes en
el módulo general, el cual incluye entre otros datos ubicación
física del documento y la conformación del expediente físico.
Permite a los usuarios consultar cualquier documento, a
través de diferentes mecanismos de filtrado dependiendo del
Consultas
nivel de acceso que tenga el usuario que efectúa la consulta.
Estadísticas y
Reportes
Se pueden obtener reportes para establecer el nivel de
rendimiento en los diferentes procesos como Número de
documentos radicados, digitalizados, trámite en dependencia,
radicados actuales sin tramitar, entre otros. Los cuales
30
Funcionalidad
Descripción
permiten detectar posibles retrasos durante su trámite y así
establecer unos niveles de control y posibles contingencias
de ser necesario.
Expedientes
Virtuales
El módulo de Expedientes virtuales que permite a los
usuarios observar en línea las imágenes de los documentos
que reposan en el archivo físico cumpliendo con el principio
de orden y procedencia, es decir que se conservan en el
orden en que suceden los hechos, con esta funcionalidad se
logra que la unidad documental o expediente virtual se
conserve en el mismo orden del expediente físico, se logra la
aplicación dinámica de las Tablas de Retención Documental
haciendo partícipe a los productores de documentos dentro
del proceso documental. Este desarrollo ha facilitado el
seguimiento a las diferentes series documentales (por
ejemplo las series de contratos, investigaciones, Silencios
Administrativos, entre otras).
El módulo de Flujos de Trabajo (WorkFlow), permite realizar
seguimiento, generar estadísticas y alertas sobre cada uno
de los procesos que se manejan en la entidad. Estamos
Flujos de Trabajo y
empezando a desarrollar herramientas que integran los
Procesos(WorkFlow)
documentos y expedientes virtuales a Procesos, de esta
manera Lograr Convertir a Orfeo en una Herramienta de
Gestión por Procesos (BPM).
Módulo que garantiza interoperabilidad del Orfeo con otras
Herramientas, lo que conlleva a proceder a Orfeo a un
sistema Orientado a los Servicios. Las aplicaciones externas
podrán enviar datos o variables que requiera orfeo para
InterOperabilidad
generar Radicados, Expedientes, Adjuntar Archivos, entre
con otros aplicativos
otros. En las versiones a partir de 2008 se encontrará
(WebServices)
disponible la implementación de Webservices y formularios
de variables dinámicos que permitirán que Orfeo almacene y
comparta información de variables que requieran los
Procesos que se generan en la aplicación.
Este módulo permite aprovechar la ventaja de documento
estándar de formato abierto (Conforme a los estándares
Modulo de Manejo
ISO), haciendo posible editar el documento en múltiples
de Plantillas en ODT
herramientas ofimáticas como OpenOffice, Koffice, AviWord,
y XML
Office, entre otros, liberando al ciudadano de la adquisición
de Software para ver y editar los documentos producidos.
31
Funcionalidad
Descripción
Esta herramienta permite realizar el cargue, ajuste y
administración de las Tablas de Retención Documental,
Tablas de Retención
previamente aprobadas por el AGN para cada Entidad,
Documental
realizando una aplicación dinámica con el administrador y los
usuarios del sistema con enfoque de procesos.
De un lado permite colocar en la página de la entidad
formularios para recibir solicitudes o documentación de los
usuarios a través de la red de Internet, generándoles un
documento (por ejemplo un pdf), con número de la solicitud
para que el usuario pueda consultar el estado del trámite vía
Consultas Web en
web.
Línea
De otra parte, es posible consultar Expedientes en línea para
facilitar a terceros, previamente autorizados la consulta en
línea de expedientes completos sin tener que dirigirse a la
Entidad.
9.1.1.2.4. OpenKM
OpenKM. Se caracteriza por ser una aplicación web de gestión documental que
utiliza estándares y tecnologías Open Source, además de poseer un amplio
abanico de posibilidades en torno al documento, como metadatos, escaneo, añadir
comentarios al documento, workflow, entre otros. Lo que permite sociabilizar más
con los usuarios que tramitan con la información dentro de la aplicación.
¿Porque utilizar OpenKM?
OpenKM es un repositorio de gran valor de los activos de información corporativa
que facilita la creación de conocimiento y mejora la toma de decisiones de
negocio.
El resultado para la organización es:
 Una mejora de la productividad en forma de prácticas compartidas.
 Una mayor eficiencia de costes.
32
 Mejores relaciones con los clientes.
 Los ciclos de ventas más rápido, acortar el tiempo del producto al mercado,
y una mejor toma de decisiones.
Hacer lo fácil lo complejo
 OpenKM proporciona una solución integral mediante la gestión de la
información tanto estructurada como no. Utilizar OpenKM es muy sencillo
gracias a una interfaz de usuario intuitiva y fácil de usar que permite:
 Recopilar la información de cualquier fuente digital.
 Colaborar con otros miembros de la organización en documentos y
proyectos.
 Ayuda a las empresas a capitalizar el conocimiento acumulado a través de
la localización de documentos, expertos, y fuentes de información.
(OpenKM, 2004)
9.1.2. ASPECTOS GENERALES CRAWLER
Internet es una fuente de información muy extensa con más de 1,200 millones de
páginas y con un ritmo de duplicación que varía entre 6 y 8 meses. Las páginas
provienen de ámbitos sociales diversos (instituciones oficiales, mundo académico
y de investigación, particulares, entre otros.) y ofrecen información de todos los
ámbitos del conocimiento humano
La red de Internet está llena de información valiosa, pero también hay muchísima
información poco relevante (denominada ruido) que hace perder tiempo a la hora
de buscar algo. No se dispone de una manera organizada que facilite la
localización y recuperación de la información, sin embargo se han desarrollado
herramientas de búsqueda (denominadas motores de búsqueda) las cuales están
diseñadas para ayudar al usuario a encontrar rápidamente la información que
33
necesita atendiendo a sus características, los motores de búsqueda se pueden
clasificar en tres grandes categorías: los basados en crawlers, los basados en
índices o directorios y los meta motores de búsqueda. Gracias a estos, se puede
buscar cualquier tema introduciendo algunas palabras que hagan referencia a él y
acceder a su información en cuestión de segundos.
Muchas empresas se dedican a mantener un catálogo de toda la información que
se genera día a día en Internet, clasificando la información más relevante de forma
temática y manual, dichas empresas entran en la clasificación de los llamados
índices de Internet. El precursor de los índices o directorios (Yahoo) nace de la
mano de dos estudiantes en Abril de 1994 como una iniciativa para catalogar los
recursos más atractivos de la WWW (World Wide Web o red mundial). Yahoo se
ha convertido en una fructífera empresa que ofrece su servicio de forma gratuita a
cambio de que el usuario vea publicidad cada vez que accede para realizar una
consulta, las ventajas principales de Yahoo son su completitud, su sencilla y
atractiva interfaz y su facilidad de uso.
Con la llegada de nuevas tecnologías y mejores conexiones, aparecieron nuevos
sistemas más potentes que recopilan toda la información de Internet, estos son
conocidos como crawlers. En 1993 se crea el primer crawler al que se le
llamó worldwideworm (gusano mundial), era un programa que se arrastraba entre
un sitio y otro e indexaba todas las páginas guardando el contenido en una base
de datos encabezados por AltaVista, los servicios de este tipo emplean robots
inteligentes que saltan de una página a otra en la red mundial, a través de
hipertextos, recogiendo páginas y almacenando toda la información en una
gigantesca base de datos. AltaVista comenzó a indexar las páginas existentes en
Internet en Diciembre de 1995, nació como una necesidad de una herramienta
más potente de búsqueda de información y ofrece una buena forma de localizar
información cuando no se tiene muy claro en qué categoría puede enmarcarse, o
cuando se requiere una mayor cantidad de información, la desventaja principal es
el ruido que ocasiona en la red.
34
El crecimiento tan grande en la información publicada en Internet hace casi
imposible que un sólo motor de búsqueda la mantenga indexada. Los meta
motores de búsqueda, como MetaCrawler deInfoSpace, refuerzan la búsqueda
más de dos veces en promedio, en comparación con lo que haría un motor de
búsqueda común. MetaCrawler fue desarrollado en 1994 en la Universidad de
Washington en Seattle por el estudiante Erik Selberg y el profesor Oren Etzioni.
Fue liberado en Junio de 1995 autorizado a Netbot cofundado por Etzioni. En
Febrero de 1997 Go2Net, ahora InfoSpace, se encargó de su operación, en
Octubre de 1998 Etzioni se asoció a Go2Net y en Mayo de 1999 fue nombrado
oficial en jefe de tecnología. 4
9.1.2.1.
EMPRESAS QUE TRABAJAN CON LA TECNOLOGÍA ROBOTS
DE NAVEGACIÓN.
9.1.2.1.1. RASTREADORES GOOGLE
los robots Google utiliza para rastrear la web " Crawler" es un término genérico
para cualquier programa (como un robot o araña ) que se utiliza para descubrir
automáticamente y escanear páginas web siguiendo los enlaces de una página
web a otra. Rastreador principal de Google se llama Googlebot, esta tabla muestra
información acerca de los rastreadores de Google comunes que usted puede ver
en sus registros referenciales y cómo deben ser especificados en el archivo
robots.txt, los robots meta tags, y las directivas HTTP X- Robots - Tag. (Google
Support , 2015).
9.1.2.1.2. SLURP
Es el robot de Yahoo (o "araña") para la página web de recopilación de
información.
4
Aguilar González, R. (15 de 12 de 2003). Motores de busqueda. Recuperado el 20 de 04 de 2015, de
http://www.geocities.ws/motoresdebusqueda/inicio.html
35
 Slurp recoge el contenido de los sitios asociados para su inclusión dentro
de sitios como Yahoo News, Yahoo Finanzas y YahooSports.
 También accede a las páginas de los sitios de la Web para confirmar la
exactitud y mejorar el contenido personalizado de Yahoo para los usuarios.
(Yahoo, 2015).
9.2.
MARCO CONTEXTUAL.
Al enfrentar el gran desafío tecnológico, la comunidad del conocimiento se está
dotando de todo tipo de aparatos digitales, para ser exitosos en las actividades
diarias.
El uso de aparatos digitales, no de todo tipo sino los realmente útiles, es decir los
necesarios para lograr ser competitivo y estar consciente de la importancia de la
tecnología que contribuye a la construcción de objetos virtuales para satisfacer a
las necesidades de la humanidad, también conlleva una responsabilidad; el vicio,
es caer en la esclavitud de ella o en el abuso, lo cual puede ocasionar muchos
problemas en lo personal y profesional.
Como usuarios pasivos o activos de la utilización de tecnología a través de todo
tipo de equipos digitales algunos como pasivos, simplemente se limitan a revisar y
consumir información mientras que el activo permanece constantemente atento,
no solo a recibir información sino también a ser visible con su identidad digital en
todos los espacios de la Web, cooperando con sus comentarios a través de las
redes sociales, mediante la construcción de nuevos documentos para la
enseñanza, aprovechando los contenidos enriquecedores de conocimientos y
presentando oportunidades de mejora.
Existen contactos importantes
que
pueden hacer reflexionar, con ideas de negocios, compartir información,
establecer nuevos criterios y derrumbar antiguos paradigmas, entre otros.
Hoy en día se hace indispensable la internet, comparada con la televisión y la
radio las bondades de la Web y sus tecnologías hacen que los menos interesados
36
terminen “contagiados“ por la red, porque son muchas las utilidades que se
brindan como el correo electrónico, Messenger, las redes sociales, el acceso de
todo tipo de información para incorporar en las agendas digitales, celular,
Portátiles, MP4 Players, Pendrive, Ipads, Blackberry, smartphone, memorias,
escáner, Video Cámara, tarjetas kingston, Palm, reproductores de DVD, juegos
softwares; el uso de estos equipos mediante los cuales se puede compartir
información, conocimiento, experiencias, ideas, encontrar amigos, en fin, todas las
aplicaciones que se quieran dar, la tendencia en la actualidad es tener la
tecnología a la mano y si no se tiene se complicara la existencia para algunas
personas .
Sin embargo, el uso excesivo de la tecnología se puede llegar a generar
desórdenes psicológicos de acuerdo a investigaciones cualitativas y cuantitativas,
en la comunicación sincrónica y asincrónica, pues el internet incluye cada día mas
formas de textos, videos, gráficos, voz, lo que convierte al individuo en un
potencial adicto al internet y sus efectos de los cuales algunos de estos son los
síntomas de comportamiento, euforia, satisfacción, la necesidad de estar en el
internet.
De acuerdo a las consultas sobre el tema el mal uso del internet, pueden
ocasionar otros vicios y efectos negativos, tales como:
Cambios de comportamiento humanos y las tendencias atacantes consecuentes
del mal uso de las redes sociales.
Vicios del lenguaje: Anfibología(escribir en doble sentido), barbarismo( emplear
vocablos impropios), extranjerismos( uso palabras extranjeras), idiotismo(Modo de
hablar contra las reglas ordinarias de la gramática), impropiedad(Empleo palabras
con significado distintos del que tienen), Pleonasmo( Empleo de palabras
innecesarias), Redundancia( Repetición innecesaria de palabras o conceptos),
Dequeísmo(Eliminar elementos de enlace necesarios), A dequeísmo( Eliminar
37
elementos de enlace necesario “de”), estas son formas incorrectas al escribir o
hablar.
 Técnicas de asalto a delincuentes cibernéticos
 Falta de control personal al consultar contenidos ilegales, nocivos o falsos.
 Adición a la relaciones cibernéticas (reemplazar las conversaciones de
familia por conversaciones con desconocidos).
 Uso indiscriminado de las redes sociales y videos juegos on line.
 Fraudes informáticos, por propiedad intelectual.
 Frecuentar entornos sociales on line, los famosos encuentros con
cibernautas en busca de cariño, amor, comprensión, que lo repliegan a
desconocidos dando a conocer la dirección, datos personales, teléfonos.
 Recepción de mensajes desconocidos o spam (basura). (García, 2011)
Con la ayuda de generar un espacio donde guardar su información de interés
personal de ayuda, que genere conocimiento, cambiar su estilo de vida, al
implantar una solución de varias partes a la propuesta de la fundación
OneTwoTree, donde el impacto será generado en el almacenamiento y cuidado
de los documentos que dichas personas sea relevante y sirva de apoyo para las
demás personas, no tendrá perdida de datos, con (backups), se dará un aporte
grande a la ecología y el transporte de grandes proporciones de papel físico para
personas o se podría pensar en empresas que manejan volúmenes grandes, con
el aporte en la región de Risaralda, se apoya la cultura, el desarrollo personal o
profesional entre otros campos.
One Two Tree una fundación sin ánimo de lucro que apoya al servicio ecológico,
brindando soluciones con varios programas ambientales, una de ellas es la
38
siembra masiva de arboles y ahora
aporta ideas de innovación tecnológica
sembrando conciencia ambiental y emocional.
9.3.
MARCO CONCEPTUAL
9.3.1. ASPECTOS GENERALES DE LA GESTIÓN DOCUMENTAL
Un sistema de gestión documental por lo general se refiere a las siguientes
áreas:
Almacenamiento,
recuperación,
clasificación,
seguridad,
custodia,
distribución, creación, autenticación. (codina, 1993)
TABLA2: Gestión documental
(Wikipedia, 2015).
Almacenamiento
¿Dónde se guardara los documentos? ¿Cuánto se podrá pagar
para almacenarlos?
Recuperación
¿Cómo puede la gente encontrar documentos necesarios?
¿Cuánto tiempo se puede pasar buscándolo? ¿Qué opciones
tecnológicas están disponibles para la recuperación?
Clasificación
¿Cómo organizamos los documentos? ¿Cómo se asegura que
los documentos estén archivados siguiendo el sistema más
apropiado?
Seguridad
¿Cómo se evita la pérdida de documentos, evitar la violación de
la información o la destrucción no deseada de documentos?
¿Cómo mantener la información crítica oculta a quién no
debiera tener acceso a ella?
Custodia
¿Cómo decidir qué documentos conservar? ¿Por cuánto tiempo
deben ser guardados? ¿Cómo proceder a su eliminación
(expurgo de documentos)?
Distribución
¿Cómo distribuir documentos a la gente que la necesita?
39
¿Cuánto se podrá tardar para distribuir los documentos?
Workflow
¿Si los documentos necesitan pasar a partir de una persona a
otra, cuáles son las reglas para el flujo de estos documentos?
Creación
¿Si más de una persona está implicada en creación o
modificación de un documento, cómo se podrá colaborar en
esas tareas?
Autenticación
¿Cómo proporcionar los requisitos necesarios para la validación
legal al gobierno y a la industria privada acerca de la
originalidad de los documentos y cumplimos sus estándares
para la autentificación?
Los sistemas de gestión documental son programas de gestión de bases de datos
que disponen de una tecnología idónea para el tratamiento de documentos
científicos,
culturales
y
técnicos.
Estos
sistemas
difieren
en
aspectos
fundamentales de los de gestión de bases de datos convencionales o de
aplicación general que se utilizan para la gestión de documentos administrativos.
9.3.1.1.
BASES DE DATOS Y AMBIGÜEDAD DEL
OJETIVO DOCUMENTAL
En los países de habla latina los documentalistas se arrastra una tradicional
insatisfacción por la problemática denominación del campo de actividades
("¿documentación?... ¿y qué es eso?"). Es una denominación poco intuitiva, como
demuestra el hecho de que incluso las personas cultas, salvo que trabajen en
temas de documentación ignoran qué es la documentación. No sucede lo mismo
con otras profesiones, cuya denominación por alguna razón, ya da una idea sobre
cuál es su campo de actividad, incluso a los profanos.
Esta ambigua denominación induce también una constante confusión en el terreno
de los sistemas de información, incluso entre profesionales, porque documental,
40
aplicado a bases de datos, puede referirse a tecnologías de la información que a
veces se aplican a gestionar documentos administrativos o puede referirse a
tecnologías especializadas en el almacenamiento y recuperación de información
documental científico-técnica.
9.3.1.2.
ENTORNOS DE TRABAJO EN LA EMPRESA
En la gestión de documentos existen, de acuerdo con lo señalado por lo menos
dos entornos de trabajo muy diferenciados: un entorno administrativo y un entorno
documental. El entorno administrativo utiliza documentos administrativos que son
aquellos que permiten la gestión diaria de cada empresa, este entorno como es
obvio, está presente en cualquier empresa o unidad de producción.
El otro entorno utiliza documentación científica o técnica que es necesaria para
dar soporte a ciertos departamentos de la empresa, como el de I+D, el de
planificación y proyectos, el de ingeniería, el de investigación de mercados, entre
otros; así como a aquellos empleados que entran en la categoría de lo que se
denomina know ledge workers : ejecutivos, asesores, analistas, entre otros. A
esta documentación se le denomina informativa o cognitiva. No todas las
empresas disponen de tales entornos de trabajo. Las pequeñas y medianas
empresas, por ejemplo, no suelen tener departamentos de I+D ni de ingeniería; y
la cultura de los know ledge workers, no suele valorar la documentación, como
consecuencia ni utilizan sistemas documentales ni conocen siquiera su existencia,
y suelen informarse por el castizo método de "estar a verlas venir".
9.3.1.3.
ESTRUCTURA DE UNA BASE DE DATOS
Recordar que actualmente se tiende a adoptar una concepción muy laxa de base
de datos y se tiene por tal a cualquier colección de datos grabados en un soporte
legible por ordenador, que exista con el propósito de proveer información a otras
aplicaciones o a usuarios finales.
Estos datos se agrupan en unidades de tratamiento denominadas registros los
cuales a su vez, están organizados en zonas o sub-elementos denominados
41
campos. Los objetos materiales o conceptuales de los que trata una base de
datos se denominan entidades, y así a cada entidad del mundo real corresponde
un registro en el mundo simbólico de las bases de datos, donde aquellas
entidades están representadas mediante un modelo simplificado: el registro. Las
entidades del mundo real poseen unos atributos determinados y aquellos atributos
que son más pertinentes para representar la entidad se convierten en los campos
del registro.
Por ejemplo, si los clientes de una empresa son la entidad representada en una
base de datos, entonces a cada cliente le corresponderá un registro, cada
elemento de información o atributo del cliente como nombre, dirección, población,
entre otros., será un campo del registro.
Hasta aquí se han visto las similitudes en los dos sistemas de bases de datos
existentes actualmente. Las características y propiedades de los registros y
campos, la forma de acceso a la información y las herramientas complementarias
difieren considerablemente entre unos y otros sistemas.
9.3.1.4.
SISTEMAS ADMINISTRATIVOS VERSUS SISTEMAS
DOCUMENTALES
La tecnología de los sistemas administrativos suele basarse en el modelo
relacional, y la tecnología de los sistemas documentales se basa en el modelo
textual. En los dos casos ambas tecnologías disponen de un sistema de gestión
de bases de datos como núcleo. Últimamente han aparecido soluciones que
combinan ambas.
Los sistemas relacionales utilizan la tabla como estructura de datos. Una tabla es
una matriz de dos dimensiones compuesta de filas y columnas, cada columna
corresponde a un campo y cada fila corresponde a un registro. En una tabla la
longitud de cada campo debe estar determinada y prefijada de antemano y no
admite valores repetidos (por ejemplo, dos autores, o diversas palabras clave).
42
Los sistemas documentales en cambio, utilizan el modelo textual basado en el
fichero invertido y campos de extensión variable con valores repetidos es el único
modelo que por ahora se ajusta a la necesidad de los documentos científicotécnicos.
9.3.1.5.
SISTEMAS ADMINISTRATIVOS U OFIMÁTICOS
Los sistemas automatizados de gestión de documentos administrativos suelen
recibir el nombre de sistemas ofimáticos y están orientados a las necesidades de
gestión de documentos propios de las empresas. Suelen consistir en extensiones
de los sistemas de gestión de bases de datos convencionales, es decir, en
sistemas relacionales.
El tipo de documentos que gestionan por más que sean vitales para la empresa
no necesitan el análisis ni la indización que en cambio necesitan los documentos
técnicos o científicos tales como artículos de revistas, noticias de actualidad o
informes técnicos.
El modelo relacional se desarrolló en realidad para gestionar datos, no tanto para
gestionar objetos más complejos ni como documentos, pero aún así puede
gestionarlos siempre que sean muy estructurados como suelen ser los
administrativos.
9.3.1.6.
EL MODELO CLÁSICO DE LOS SISTEMAS
DOCUMENTALES O COGNITIVOS
La documentación científico-técnica, también llamada informativa y cognitiva,
requiere para su gestión sistemas muy especializados que permiten recuperar
información a partir del análisis y la descripción del contenido o materia del
documento.
Los sistemas documentales se basan en una estructura menos formalizada que
los sistemas ofimáticos. La estructura clásica incluye cuatro elementos
principales: un modelo de registro textual estructurado en campos de extensión
43
variable; la inversión de términos que conduce a la creación de un fichero
invertido; uno o más diccionarios que controlan la indexación (diccionario de
palabras vacías, de sinónimos, de palabras autorizadas, entre otros.); un sistema
de recuperación basado en el álgebra de Boole para realizar operaciones lógicas
con conjuntos de documentos y otro sistema complementario de recuperación
basado en comparaciones, truncamientos, proximidad, entre otros. De cadenas
de caracteres.
En este sentido un sistema documental clásico intenta proporcionar herramientas
para gestionar información no estructurada (es decir, cuyos atributos no son
deducibles sin una operación compleja de análisis intelectual), ni posee
propiedades repetitivas como un impreso de oficina, sino que su estructura es
sumamente variable de un documento a otro.
Un artículo de una publicación científica o un informe técnico, por ejemplo, sería el
paradigma de tal tipo de información. Para su recuperación no basta registrar
datos como el autor, el destinatario y la fecha de creación. Debe representarse
también la información y el conocimiento que pueda contener ese documento.
9.3.1.7.
VARIACIONES SOBRE EL MODELO CLÁSICO
En los últimos años se ha producido una serie de innovaciones en la tecnología
documental que sin negar el modelo clásico, lo extienden y complementan.
Veamos estas innovaciones a partir de los siguientes parámetros: el modelo de
registro, el sistema de recuperación y la combinación con el modelo relacional.
9.3.1.8.
LA ESTRUCTURA DEL REGISTRO
El concepto de registro ha sufrido una extraordinaria ampliación. Algunos sistemas
admiten cualquier formato con o sin campos, incluso el registro puede mantener el
formato nativo de la aplicación con la que ha sido creado, es decir, que indexan y
gestionan documentos sin necesidad de adaptarlos al formato de la base de datos.
44
Algunos sistemas permiten también la gestión de los así llamados documentos
compuestos, que consisten en documentos que incluyen información multimedia
(texto, gráficos y sonido) creada con diversas aplicaciones. Estos documentos
compuestos conservan la vinculación con los diversos programas que han creado
cada parte del documento.
9.3.1.9.
SISTEMAS DE INTERROGACIÓN
En cuanto al método de recuperación, comienzan a aparecer sistemas que
incorporan aportaciones de la teoría de recuperación de información tales como el
cálculo de relevancia de cada uno de los documentos recuperados con tal de
presentarlos por su grado de probabilidad de satisfacer la demanda del usuario o
sistemas que convierten un texto de un documento en un modelo de búsqueda de
documentos con contenidos similares. Windows Personal Librarian (CSI) es uno de
los programas que incorpora tales características. (codina, 1993).5
9.3.1.10.
ROBOTS Y AGENTES
Los principales buscadores de Internet construyen sus bases de datos usando
robots comúnmente denominados spiders (arañas), crawlers o webcrawlers. Estos
robots son potentes programas que recorren la Web de forma automática y buscan
textos a través de los documentos HTML (u otro tipo de formatos como pdf,
imágenes, entre otros.), donde se incluyan determinadas palabras. Estos textos,
junto con las direcciones URL que los contienen son indexados, clasificados y
almacenados en grandes bases de datos para que los internautas posteriormente,
dirijan allí sus consultas e interroguen a la base de datos buscando alguna palabra
o frase. Los robots vuelven a recorrer periódicamente estas páginas para buscar
alguna modificación o la incorporación de nuevas palabras. Así, la actualización se
realiza de forma automática. En general, los robots comienzan con un listado
5
Codina, L. (05 de 1993). Qué es un sistema de gestión documental. Recuperado el 25 de 04 de 2015, de
Revista Internacional CIentifica y Profesional:
http://www.elprofesionaldelainformacion.com/contenidos/1993/mayo/qu_es_un_sistema_de_gestin_docu
mental.html
45
de enlaces y URLs preseleccionadas y recurrentemente visitan los documentos que
se referencian desde las mismas.
La tipología de los agentes varía de unos autores a otros, pero lo más común es
establecer una tipología basada en 3 características: cooperativos, autónomos y
de aprendizaje. Así, se encuentra:

Agentes Colaborativos: Cooperativos y Autónomos

Agentes de Interfaz: Autónomos y de Aprendizaje

Agentes de Aprendizaje Colaborativos: Cooperativos y de Aprendizaje

Agentes Smart: Cooperativos, Autónomos y de Aprendizaje
Las aplicaciones de los agentes son muy numerosas, entre las que se pueden
destacar: uso de agentes en Internet e interfaces de usuarios, utilización en
sistemas de información, juegos y animaciones, comercio electrónico, educación,
entre otros.
En el ámbito de la Web y, de forma específica, se pueden destacar los siguientes
tipos de agentes:
 AGENTE AUTÓNOMO: se trata de un programa que "viaja" entre los sitios
web, decidiendo por él mismo qué debe hacer y cuándo debe moverse a
otros lugares. Estos agentes sólo pueden viajar entre sitios ubicados en
servidores especiales y no están muy difundidos en el área de Internet.
 AGENTE INTELIGENTE: Se trata de un programa que ayuda al usuario a
ciertas acciones. Por ejemplo, a rellenar formularios, elegir productos,
encontrar determinada cosa, entre otros. Este tipo de agentes también se
denominan
softbot
significa software
robot,
utiliza
herramientas
de software y servicios basados en el comportamiento de las personas.
46
 AGENTE DE USUARIO: Es el nombre técnico para denominar a un
programa que ejecuta determinadas tareas para un usuario en la red.
Ejemplos son: un navegador como Internet Explorer, o un agente de correo
del tipo Email User-agent, Eudora entre otros. (Lamarca Lapuente)
9.4. METODOLOGÍA
INVESTIGACIÓN APLICADA
La investigación científica aplicada se propone transformar el conocimiento 'puro'
en conocimiento útil. Tiene por finalidad la búsqueda y consolidación del saber y la
aplicación de los conocimientos para el enriquecimiento del acervo cultural y
científico, así como la producción de tecnología al servicio del desarrollo integral
de las naciones. La investigación aplicada puede ser Fundamental o Tecnológica.
La aplicada fundamental, se entiende como aquella investigación relacionada con
la generación de conocimientos en forma de teoría o métodos que se estima que
en un período mediato podrían desembocar en aplicaciones al sector productivo.
Por ejemplo, en el sector médico, se emprenden investigaciones para tratar de
conocer el mecanismo o los orígenes de cierta enfermedad o dolencia con el fin de
poder combatirla posteriormente, aunque no se sepa si llegará a ser necesario el
crear una droga para este fin.
La investigación aplicada fundamental puede ser, a su vez, teórica, experimental,
o una mezcla de ambas; dependiente de la naturaleza de su trabajo y sus
productos pueden ser artículos científicos publicables, sobre todo si en su
desarrollo no está involucrado el interés de una empresa.
La investigación aplicada tecnológica, se entiende como aquella que genera
conocimientos o métodos dirigidos al sector productivo de bienes y servicios, ya
sea con el fin de mejorarlo y hacerlo más eficiente, o con el fin de obtener
productos nuevos y competitivos en dicho sector.
47
Sus productos pueden ser prototipos y hasta eventualmente artículos científicos
publicables. En el caso de la investigación médica del ejemplo anterior, la
investigación tecnológica se realizaría alrededor del desarrollo de una droga
específica para la cura de una determinada dolencia y se pretendería, que la
droga fuera a dar al mercado.6
Para la elaboración de investigación a realizar en
el proyecto se utilizara el
método de investigación científica aplicada a la tecnología
ya que con la
investigación se pretende dar a conocer, varios software para la gestión de
archivos, el no uso de papel en las empresas y la conciencia colectiva. Es de
mucha importancia realizar la investigación, ya que se contribuye al medio
ambiente, al factor económico de las empresas y lo más importante a
salvaguardar la información importante de cada persona o de las empresas.
10. PERSPECTIVA DESDE LA LEY
Desde la perspectiva de la Ley General de Archivos, se define Gestión documental
como el “Conjunto de actividades administrativas y técnicas tendientes a la
planificación, manejo y organización de la documentación producida y recibida por
las entidades desde su origen hasta su destino final, con el objeto de facilitar su
utilización y conservación”.
Un programa de gestión documental se puede definir como el conjunto de
instrucciones en las que se detallan las operaciones para el desarrollo de los
procesos de la gestión documental al interior de cada entidad, tales como
producción, recepción, distribución, trámite, organización, consulta, conservación y
6
von Braun, W. (s.f.). Lección 5: Investigación pura, investigación Aplicada, Investigación profesional.
Recuperado el 29 de 05 de 2016, de UNAD. Universidad Nacional Abierta y a Distancia:
http://datateca.unad.edu.co/contenidos/100104/100104_EXE/leccin_5_investigacin_pura_investigacin_apli
cada_investigacin_profesional.html
48
disposición final de los documentos. Con la implantación de un programa de
gestión documental se pretende alcanzar los siguientes objetivos:
Resaltar la importancia del papel de los documentos y archivos, como lenguaje
natural de la administración pública para el funcionamiento de la misma,
elementos necesarios para la participación ciudadana, apoyos decisivos para la
transparencia y el control de la gestión pública y garantía de los derechos
individuales y colectivos.
Procurar la racionalización y control en la producción documental, en atención a
los procedimientos, trámites administrativos y flujos documentales lo mismo que la
normalización de modelos y formatos para la producción documental.
Normalizar la utilización de materiales, soportes y equipos de calidad y que a la
vez preserven el cuidado del medio ambiente.
Lograr una acertada normalización en los procedimientos para el recibo,
radicación y distribución de la correspondencia mediante la utilización de sistemas
eficientes de correo y mensajería.
Regular el manejo y organización del sistema de administración de documentos y
archivos a partir de la noción de Archivo Total y los enunciados de finalidad,
responsabilidad, confidencialidad, seguridad y accesibilidad.
Implementar el desarrollo de procesos básicos de aplicación de la tabla de
Retención Documental, organización, transferencias primarias, recuperación,
preservación, conservación de la información y disposición final de los
documentos.
Facilitar la recuperación de la información en forma rápida y oportuna.
Encaminar los archivos para que sean verdaderos centros de información útiles
para la administración e importantes para la cultura.
49
La Ley 594 de 2000 - Ley General de Archivos, reguló en su Título V: Gestión de
documentos, la obligación que tienen las entidades públicas y privadas que
cumplen funciones públicas, en elaborar programas de gestión de documentos,
independientemente del soporte en que produzcan la información para el
cumplimiento de su cometido estatal o del objeto social para el que fueron
creadas.
En su regulación la Ley 594 previa que el desarrollo tecnológico en las entidades
es desigual y por lo tanto deja claro que los principios y procesos archivísticos
deben aplicarse cualquiera sea la tecnología y el soporte en que se produce la
información. Con este instrumento el Archivo General de la Nación pretende
entonces orientar a las entidades públicas y privadas que cumplen funciones
públicas para facilitarles la adopción y adaptación del programa.
En dicha norma, la gestión de documentos se enmarca dentro del concepto de
Archivo Total comprendiendo procesos tales como la producción, recepción,
distribución, consulta, organización, recuperación y disposición final de los
documentos y de forma expresa refiere entre otros aspectos a la obligación de la
elaboración y adopción de las Tablas de Retención Documental instrumento
archivístico que identifica para cada entidad, de acuerdo con sus funciones y
procedimientos los documentos que produce, recibe y debe conservar con
sujeción al principio de eficiencia que rige la función administrativa y al de
racionalidad que rige para los archivos como elementos fundamentales de la
administración pública, agentes dinamizadores de la acción estatal y sustento
natural de sus procesos informativos.
La Ley General de Archivos en el título V, Gestión de Documentos, Artículo 21.
Programas de Gestión Documental, establece que: “Las entidades públicas
deberán elaborar programas de gestión de documentos, pudiendo contemplar el
uso de nuevas tecnologías y soportes en cuya aplicación deberán observarse los
principios y procesos archivísticos” y en el Artículo 19 “las entidades del Estado
50
podrán incorporar tecnologías de avanzada en la administración y conservación de
sus archivos empleando cualquier medio técnico, electrónico, informático, óptico o
telemático, siempre y cuando cumplan con los siguientes requisitos:
a) Organización archivística de los documentos.
b) Realización de estudios técnicos para la adecuada decisión teniendo en cuenta
aspectos
como
la
conservación
física,
las
condiciones
ambientales
y
operacionales, la seguridad, perdurabilidad y reproducción de la información
contenida en estos soportes así como el funcionamiento razonable del sistema.”
En cumplimiento de lo anterior, un sistema de información para el Programa de
Gestión Documental debe concebirse desde su inicio como un sistema integral
que se ajuste conceptualmente a los principios archivísticos y a los objetivos de
dicho programa. Es por ello que no obstante por desigual desarrollo tecnológico,
se recomienda que la metodología utilizada para el desarrollo o adecuación del
sistema de información involucre y surta una etapa de análisis y diseño conceptual
del sistema integral acorde con los parámetros y normas archivísticas y en caso
de automatizar el sistema se determine y adopte la plataforma tecnológica
adecuada de conformidad con los alcances del proyecto.
Es de advertir, que la carencia de una política archivística en las entidades durante
mucho tiempo incidió en que los documentos producidos por las instituciones no
tuvieran tratamiento archivístico alguno y por lo tanto hoy se encuentran en la
mayoría de las entidades, fondos acumulados que no se pueden desconocer por
ser una realidad que se afronta en los archivos de las entidades del país. Por lo
anterior, el Archivo General de la Nación contempla en este modelo de Programa
de Gestión Documental esta situación de los fondos acumulados para que sea
corregida y superada por las entidades como un capítulo aparte para su atención y
desarrollo.
51
11. RESULTADOS ANEXOS
Con la anterior investigación, donde se encuentra aspectos de la Gestión
Documental y de crawler, con empresas que trabajan dichos aspectos en el cual la
constitución Colombiana ha estipulado leyes para las organizaciones, respecto a
la Gestión Documental.
Con el planteamiento del problema en el contexto generado por la Fundación ONE
TWO TREE, se dará a conocer los resultadosl con base al problema planteado.
Tomando 4 software libre de Gestión Documental y teniendo en cuenta algunas
recomendaciones para un buen Gestor, se realiza una consulta sobre cada uno de
ellos, hacer su respectiva descarga y su instalación.
El primero de ellos es OpenKM un gestor fácil de descargar desde su página
oficial, una interfaz amigable al cliente es seguro con configuración de usuarios
asignando roles entre otras opciones y es una buena alternativa para las
organizaciones o personas que deseen gestionar la información, en la instalación
se presenta problemas de puertos del Gestor con otros programas instalados, se
logró cambiar los puertos del tomcat y poder tener comunicación con el servidor,
con lo que se debe tener en cuenta ese aspecto no solamente para OpenKM sino
para cualquier Gestor Documental.
El segundo Gestor Documental es Alfresco, la descarga no tuvo complicaciones
haciéndose desde la página oficial, tampoco a la hora de su instalación, solamente
se tuvo dificultad en el momento de conectar el cliente con el servidor, aun
cambiando los puertos del tomcat y entre otros puertos, intentando por todo los
medios no se logra el objetivo y se da por terminado su interacción con Alfresco.
El tercero Gestor Documental es Nuxeo, la descarga se hizo desde su página
oficial no se genera ningún inconveniente en su instalación, tiene una interfaz
grafica amigable, segura, con roles para usuario, entre otras opciones, es otra
elección para implantar en una organización o para personas que desean
almacenar, compartir o consultar la información más importante, no se tuvo
52
problemas al conectar el cliente con el servidor, teniendo en cuenta el problema
con OpenKM se cambió los puertos para su funcionamiento y se logra el objetivo
final.
El cuarto y último Gestor Documental es ORFEO, la descarga e instalación no se
efectúa propiamente desde un software, ya que este es un sistema de distribución
GNU/LINUX, se presentaron muchos problemas y no se logró realizar instalación
por consola, en distribuciones como Ubuntu 12.4, Ubuntu 11.4 y Debian 6,
los
manuales de instalación no fueron de mucha ayuda, no se obtuvo mucha
información para la instalación y la única solución más conveniente fue descargar
un imagen ISO del sistema operativo Ubuntu, que realizó la empresa
SKINATECH, en este
se tiene instalado Orfeo, se realiza las pruebas y se
consiguió alcanzar la conexión del cliente con el servidor y fue la única solución
que se obtuvo con ganancia.
12. ANEXO A: 7 RECOMENDACIONES A TENER EN CUENTA PARA
SELECCIONAR UN SOFTWARE DE GESTIÓN DOCUMENTAL
La buena gestión de la información en una empresa es algo fundamental que mal
gestionada pueda traer desastrosas consecuencias.
Los documentos críticos de una empresa, los contratos, las facturas, las
escrituras, entre otros, son la base de
conocimiento del negocio y de las
relaciones que se mantiene en el entorno.
Además, si todo va bien, con el crecimiento de la empresa y el uso cada vez más
importante de información en formato digital proveniente de Internet, correos
53
electrónicos, documentos ofimáticos, entre otros, la información crecerá y lo hará
de forma exponencial. Por tanto la centralización y la organización de esta
documentación se hacen vitales para manejar, con todo esto se tiene la opción de
implantar un software de gestión documental que
ayude a gestionar esa
información, pero la selección de este software no se puede hacer a la ligera si no
quiere tener resultados desesperantes, se recomienda tener en cuenta al menos
los siguientes 7 puntos:
FACIL DE MANEJAR
Para algunos empleados, especialmente aquellos que no están muy familiarizados
con el uso de documentos digitales, se pueden beneficiar del uso de un software
que les ayude guiándoles por los diferentes procesos de captura, indexación,
acceso y gestión de la información. Para asegurarse de esto pregunte a sus
candidatos a proveedores cosas como:
 ¿El software tiene una interfaz fácil de usar y personalizable para maximizar
la productividad dependiendo del perfil de cada usuario?
 ¿Se puede acceder de forma segura a través de Internet?
 ¿Tiene el usuario que recordar diferentes contraseñas o puede trabajar con
una contraseña única en todos los sistemas? Esto es lo que se llama single
sign-on.
 ¿Tiene funciones de ayuda y tips básicos para ayudar a los usuarios en las
tareas básicas?
 ¿Permite integración con el resto de software ofimático que el usuario utiliza
todos los días?
SEGURIDAD
Los problemas derivados de cambios de normativas acerca de a qué tipo de
información puede acceder cada perfil de usuario, deben
ser solucionados
fácilmente con este tipo de software con un cambio de permisos en la
54
configuración de los usuarios, se tendría que hacer que se cumpliera de inmediato
la nueva norma.
De la misma manera un cambio de roles de usuarios en la organización también
debería ser fácilmente implementado. A lo que antes no podía tener acceso en el
momento sí podrá hacerlo y al revés. Si antes no podía dar su aprobación en un
determinado paso de un workflow, se podrá hacer. Y si antes no podía estampar
su firma digital, puede que en este momento si se realice efectivamente o lo
mismo en lo referente a impresoras a las que se puede lanzar documentación o
documentos que se pueden descargar, entre otros.
BUSQUEDA DE INFORMACIÓN
 ¿Existen plantillas personalizables para estandarizar las búsquedas de la
documentación de nuestra empresa?
 ¿Existen menús desplegables con diferentes opciones que permitan a los
usuarios inexpertos una indexación fácil de la documentación?
ESCALABLE A FUTURAS NECESIDADES
Las necesidades que se tiene hoy pueden ser totalmente diferentes a las que se
tenga dentro de dos o tres años. Tal vez hoy está interesado en gestionar solo
recursos humanos y cuentas a pagar, pero mañana se necesitara gestionar la
totalidad de la información de la empresa:
 Pensar en las posibilidades de integración del software propuesto con todas
las aplicaciones que se utilizan en la empresa. Aunque en estos momentos
no se vaya a integrar.
 ¿Se encuentra parte de la información de la empresa dispersa en diferentes
sistemas?
55
POLITICAS DE RETENCIÓN DE DOCUMENTACION
Dependiendo de la actividad, puede que esté afectado por políticas de retención
de documentación, que obliguen a guardar documentación durante muchos años,
incluso permanentemente, aunque esta posiblemente no vaya a ser consultada.
Su gestor documental debe de ser capaz de gestionar esto con agilidad,
guardando estos documentos por separado pero manteniendo las posibilidades de
acceso si fuera necesario.
De igual forma el gestor documental debe facilitar la destrucción confidencial de
documentación digital en su fecha prevista.
Resumiendo, el gestor documental debe permitir migración, depuración y
destrucción de documentos dependiendo de las políticas de retención que le
afecten.
GESTION DE E-MAILS
Una mala gestión del correo electrónico obstaculiza gravemente la productividad
cuando por ejemplo un empleado se va de vacaciones y sus correos quedan
atrapados en las carpetas personales. Puede que allí haya información crítica,
archivos adjuntos importantes como contratos u ofertas de proveedores o a
clientes, que no van a poder ser encontrados hasta que el empleado no acuda a el
puesto de trabajo.
Asegúrese que la solución elegida incluya un componente de gestión de correo
electrónico que indexe, archive y permita búsquedas en mensajes y archivos
adjuntos.
ADMINISTRACION Y SOPORTE SENCILLO
Tener en cuenta que aunque el personal actual de informática sea capaz de poner
el sistema en funcionamiento, este debe de ser mantenido a lo largo del tiempo, El
personal de TI puede cambiar y el nuevo personal debe de ser capaz de entender
56
rápidamente como realizar cambios de jerarquías de usuarios, aplicar nuevas
normativas de acceso a documentos o implementar nuevas funcionalidades que
en estos momentos quizás usted no necesite.
Tener en cuenta al menos los siguientes puntos:
 Es importante que se permita una actualización centralizada, en lugar de
tener que ir realizando múltiples actualizaciones por los diferentes
componentes del sistema de gestión documental. Esto permite
implementaciones y actualizaciones más rápidas y acelera por tanto el ROI.
 Si el software es fácil de utilizar, dispone de ayuda y tips en línea, se
reducirá los costes de soporte y conseguirá que en muchos casos el propio
usuario sea capaz de solucionar sus propios problemas.
 Ver si es posible que los usuarios puedan recibir soporte remoto. Evitará
tiempos muertos.7
13. ANEXO B: ESPECIFICACIONES E INSTALACION DE LOS SOFTWARE
LIBRE DE GESTION DOCUMENTAL
OPENKM
¿Qué es?
OpenKM es una aplicación web de gestión documental que utiliza estándares y
tecnologías Open Source la cual proporciona el control de versiones, metadatos,
escaneo, comentarios, foros sobre el programa, workflow (flujos de trabajo), entre
otras. Esto permite una fácil comunicación que conecte a las personas a otras
personas, la información a la información y las personas a la información,
ayudando a gestionar de forma más eficiente la inteligencia colectiva que reside
en los recursos de la compañía.
7
Gedsa. (06 de 2013). 7 cosas a tener en cuenta para seleccionar un software de Gestión Documental.
Recuperado el 12 de 10 de 2015, de Gedsa Ingenieria Documental: http://www.gedsa.es/2013/06/7-cosasa-tener-en-cuenta-para-seleccionar-un-software-de-Gestion-Documental.html
57
OpenKM integra en una sola aplicación fácil de usar todas las funcionalidades
para colaborar, gestionar y buscar documentos, con el fin de mejorar la
productividad en forma de prácticas compartidas y hacer que mediante la interfaz
intuitiva el usuario pueda recopilar información digital, colaborar en la organización
de documentos y proyectos lo que a la vez permitirá a la empresa a capitalizar el
conocimiento acumulado a través de la localización de documentos y fuentes de
información de forma sencilla y rápida.(OpenKM Knowledge Management)
¿Qué documentos permite indexar?
OpenKM permite al usuario subir, trabajar y almacenar archivos creados en Open
Office, la suite ofimática de Microsoft (MS Excel, MS PowerPoint, MS Word),
documentos cuyas extensiones sean PDF, HTML, XML, TXT, RTF, JPEG EXIF y
MP3 ID3..
Arquitectura OpenKM:
58
ILUSTRACION 1: Arquitectura OpenKM8
Para implementar este software se requiere conocer un poco de la forma en que
esté constituido para saber si se ajusta completamente a las necesidades de la
Unidad Dentro de la arquitectura lo más relevante es:
 Interfaz (Color verde): El usuario accede a la aplicación a través de un
navegador (Firefox, Chrome o Explorer), además posee una integración con
dispositivos móviles, aunque con una limitación de las herramientas.
 API (Color Azul- Superior Derecho): Es un “OASIS” estándar abierto que
permite la interconexión del usuario y la gestión de los documentos del
repositorio, a través de la WEB.
 Spring Security (Color Rojo superior): Es el módulo más importante (a
nivel de seguridad), ya que en esta capa es donde se controla el acceso a
los usuarios. El proceso de autentificación se puede dar a través de un
servicio central de Autentificación o a través de una base de datos.
 Core (Color Rojo- mitad): Implementación de la lógica de la gestión y
procesamiento de documentos, carpetas, registros y correos electrónicos.
 Storage (Color Azul- Inferior izquierdo): El almacenamiento de datos se
hace en una base de datos (Compatibilidad con varias bases de datos).
 Buscador (Color Amarillo claro- Inferior): utiliza como motor de búsqueda:
LUCENE, su búsqueda la realiza sin importar si los documentos son o no
binarios.
 Antivirus: (Color Amarillo- derecha mitad): OpenKM puede integrar con la
mayoría de antivirus, protegiendo los documentos del repositorio y el
computador de los usuarios.
8
OpenKM. (s.f.). OpenKM. Recuperado el 05 de 11 de 2015, de Diagrama de la arquitectura del sistema:
https://www.openkm.com/es/arquitectura.html
59
 Catálogo y Metadatos (Color Amarillo-Inferior): Permite leer e identificar el
código de barras de los documentos, y ampliar su capacidad.
 Estadísticas e Informes (Color Amarillo-Inferior derecho): a través de esta
aplicación, el administrador controla el estado de la aplicación.(OpenKM
Knowledge Management)

Requerimientos del Hardware:
Para todas las versiones de OpenKM es necesario, como mínimo Intel Pentium 4 y
256 MB de memoria RAM.
 OpenKM Small, con una capacidad para menos de 25 usuarios, y un
repositorio de 10 a 60 GB, requiere de: -1GB de RAM. -Dual Core 2 (1,86
GHz). -150 a 200 GB de Hard Disk.
 OpenKM Medium, capacidad para más de 50 usuarios, y un repositorio de
más de 150 GB, necesita: -2GB de RAM. - Quad Core (2,2 GHz). - 200 a
500 GB de HD.
 OpenKm (Virtualized Server), para menos de 50 usuarios, y un
repositorio de 20 a 50 GB, requiere: - 1 GB de RAM. - Due Core 2 (1,86
GHz). - 80 a 100 GB de HD.(OpenKM Knowledge Management)
No existe límite para subir ficheros, más que la capacidad del hardware Si se
desea limitar el tamaño máximo a subir esto se puede hacer modificando el
OpenKM.cfg; Para gestionar grandes repositorios OpenKM se puede configurar en
una arquitectura de clúster.
 Los sistemas operativos compatibles con el software son: GNU Linux
(recomendado, por su mayor estabilidad), Windows desde su versión XP,
Solaris y Mac OS.
60
 El almacenamiento de los repositorios, se hace a través de un directorio o
cualquier Sistema de gestión de Base de Datos (SGBD) como: Oracle,
PostgreSQL, MySQLentre otros.
 En un principio se creyó que una desventaja de utilizar OpenKM (versión
instalación) sería la dificultad de acceder a los repositorios, desde cualquier
computador, pero OpenKM permite la integración con Dropbox.
 ¿Cuántos usuarios podrían estar usando OpenKM simultáneamente? ¿Hay
algún máximo establecido o depende de la capacidad (hardware) del
servidor?, En realidad no hay ningún límite de usuarios simultáneos, sólo se
requiere usar un servidor con las características necesarias, (Los
requerimientos de Open son muy bajos en cuanto a Software). (OpenKM
Knowledge Management)
Generalidades de OpenKM
Características generales:
Administración:

Todas las operaciones que realiza el usuario se almacenan en una
base de datos (Registro detallado).

Ver Perfiles de usuario (Documentos y funciones a las que puede
acceder el usuario).

Desbloquear, editar y retirar documentos.

Programador de tareas y tareas inteligentes.

Acceso al Repositorio.
Seguridad:

Autentificación del Usuario (Este servicio se da a través de una
autentificación centralizada, o contra una base de datos, en la que se
encuentren registrados los usuarios)

Tiene soporte para gestión de diversas bases de datos -al mismo
tiempo-, pero por defecto viene con una base de datos integrada.
61

Controla permisos de carpetas y documentos.

Registro de todas las operaciones que realiza el usuario.
Fiabilidad:

Por defecto todos los archivos que maneje OpenKM se guardan en la
carpeta $ TOMCAT_HOME / repositorio. Por dicha razón si se desea
hacer un backup, se deberá realizar una copia de esta carpeta, En
caso de que se haya configurado otra base de datos es necesario
hacer respaldo de esa carpeta.

Si un día se decide cambiar de DMS (Software de Gestión
Documental), no hay de qué preocuparse, desde el menú de
administración se dispone de la opción de exportar todo el repositorio
en una carpeta del servidor y luego desde el nuevo DMS poder
importarla.

En algunos casos al arrancar el sistema la base de datos se formatea
y se encontró que se debe modificar el parámetro hibernate.hbm2ddl
para que la base de datos no se resetee al arrancar el servicio.
Gestión de documentos:

Documentos personales y papelera de reciclaje para cada usuario.

Extracción inteligente de palabras clave.

Conversor de texto a audio.

Servicio de chat.

Pre visualización de documentos. (AutoCAD, MS office family, Open
office family, ficheros de PDF, videos, sonidos e imágenes,DICOM);
La opción no está disponible en la versión a prueba.
Características (cliente web)

Ofrece una interfaz sencilla y fácil de manejar
62

Funciona con los navegadores más usados (Firefox, Chrome, Safari,
Explorer).

Posee un Antivirus, que analiza todos los documentos que se suben al
repositorio.

Restringe permisos de roles (Aplica también para la versión
instalación)

Traducción a varios idiomas (Según OpenKM)

Android & IPhone soportan algunas funcionalidades.

Carga masiva de archivos ZIP

Filtros de Búsqueda, básicos y avanzados.

Permite hacer foros en torno a los documentos publicados.(OpenKM
Knowledge Management)
Experiencia OpenKM
Para comenzar a trabajar con el software se realizó la instalación de la versión
openkm-6.3.0-community-windows-installer. Se descargó de la siguiente página
http://www.openkm.com/es/download-espanol.html, en el anterior enlace se
encuentra el software para las diferentes plataformas, con esta versión instalada
se realizaron pruebas básicas como lo son el ingreso a la aplicación en distintos
navegadores (Firefox, Chrome e Internet Explorer), creación de usuarios y algunas
interacciones.
Ingreso
Para iniciar la aplicación se debe reiniciar el equipo al estar el equipo para su se
debe ejecutar el Tomcat
primero, la cual se hace buscando el ícono en el
escritorio llamado “StartOpenKM” creado por defecto o de no estar disponible ahí
es necesario buscarlo en el menú de inicio (variando del sistema operativo
instalado en la máquina), ese será lo primero de hacer antes de entrar al
navegador.
63
Luego de esto, ingresa por su navegador de internet – entre los ya especificados
con anterioridad – a la dirección: < http://IP del servidor: 8080/OpenKM/>.
Para la práctica se tuvo muchos inconvenientes con el puerto 8080, la cual se
estaba usando en otro software y se tomó la decisión de cambiar el puerto 8080,
por el puerto 5050 de la siguiente manera.
Ingresar a la carpeta donde quedo guardado el programa openkm se encuentra en
la ruta C:\openkm-6.3.0-community , ingresamos a la carpeta tomcat, se ingresa
a la carpeta conf y se encuentra el archivo server damos clic derecho y editar
(vease en la ilustracion 2).
ILUSTRACION 2: Cambiar puerto
Para acceder se debe reiniciar el equipo, al estar el equipo para su uso se debe
ejecutar el Tomcat nuevamente, al ingresar al navegador se utilizó el usuario que
OpenKM tiene por defecto: okmAdmin con su password “admin" el cual tiene un
rol de administrador (tiene los derechos de control, creación de usuarios, creación
y edición de archivos, entre otros). En este primer intento se reconoció la interfaz
64
de usuario (véase en la ilustración 3) y se comenzó a comprobar la forma de
indexar archivos y las extensiones que se permiten subir.
A su vez se percibe que las especificaciones técnicas que manejan son las del
equipo que en este caso se usó como “servidor”.
ILUSTRACION 3: Interfaz de usuario de OpenKM
Creación de usuario-concesión de permisos
Luego de subir archivos , se procedió a crear un usuario con un rol limitado (rol de
usuario) para verificar si se podía conectar desde otro equipo y las acciones que
éste puede realizar dependiendo de las asignaciones determinadas por el
administrador, que en este caso, fueron la remoción del permiso de eliminar y
editar archivos.
Para crear usuarios es necesario entrar con un rol de administrador:
65
En la pestaña de administrador se ubica el logo designado para usuarios
donde se desplegará la cantidad de usuarios que se encuentran habilitados y sus
respectivos roles, correo y si se encuentra activo o no. En el rótulo de la lista de
usuarios aparece un ícono para adicionar usuarios
.
Cuando se selecciona esta opción aparece un formulario con los respectivos datos
a ingresar y define el rol de dicho usuario.
ILUSTRACION 4: Formulario para crear usuarios
Al completar los datos el usuario está creado y está listo para usarse desde otra
máquina teniendo en cuenta que se debe configurar con la dirección del equipo
utilizado como servidor. Por ejemplo, en este caso se escribe la IP del equipo
(<http://192.168.0.12:5050/OpenKM/) para que acceda a los documentos ya
guardados.
66
ILUSTRACION 5: Ingreso usuario chrome
ILUSTRACION 6: Ingreso usuario Explorer
ALFRESCO
67
¿Qué es?
Alfresco es una aplicación Open Source para la Gestión de Contenido Empresarial
(ECM), que permite almacenar información estructurada en múltiples formatos
(Word, Excel, multimedia, entre otros.), junto con sus metadatos (propiedades del
documento).
¿Qué documentos permite indexar?
Alfresco gestiona todo tipo de documentos, desde archivos de texto simples a
archivos binarios pasando por documentos ofimáticos.
Con ciertos tipos de documentos, Alfresco puede analizar el archivo para
recuperar metadatos (título, descripción) que serán archivados en los metadatos
del documento Alfresco. Esto se da especialmente con archivos Word, Excel,
PowerPoint, PDF.
Desde un punto de vista técnico la aplicación utiliza herramientas como PDFBox y
Open Office que permiten leer, escribir e incluso convertir los archivos en formatos
diferentes. De este modo podremos convertir automáticamente cualquier
documento Office en PDF o un PowerPoint en Flash.
Alfresco permite crear sobre la marcha documentos de texto y HTML directamente
a partir del backoffice utilizando un editor WYSIWYG integrado (TinyMCE) tal y
como se muestra en la captura de pantalla (OPEN RED SOLUCIONES DE
SOFTWARE LIBRE)9
Arquitectura Alfresco:
9
Openred . (s.f.). Gestión Documental Alfresco ECM. Recuperado el 28 de Septiembre de 2015, de Openred
Soluciones de Software Libre: http://www.openred.es/index.php/alfresco
68
ILUSTRACION 7: Alfresco arquitectura
La arquitectura de Alfresco es la típica de una aplicación web basada en
JAVA:
ILUSTRACION 8: Alfresco basado en java
Los usuarios acceden típicamente mediante un navegador a la interfaz de usuario
de Alfresco (gestión documental) o Share (entorno colaborativo). Estas interfaces
pueden variar en función de los componentes instalados (WCM, RM) para
adecuarse a la lógica de estos.
69
Todos los documentos subidos al repositorio de Alfresco con toda su información
adicional (Metadatos) se persisten en la capa de almacenamiento según su
naturaleza:

Contenido -> Sistema de Ficheros

Metadatos -> Base de datos
Tal como muestra el diagrama se refleja que Alfresco separa a nivel lógico el
repositorio (lugar donde se almacenan los documentos) de las aplicaciones que
acceden a él (DM, RM, WCM, SHARE).
A nivel físico tenemos únicamente 2 ficheros war:

Alfresco.war (DM + Repositorio)

Share.war (SHARE)
A nivel lógico sería posible deshacerse de la interfaz de Alfresco y programar cada
uno su propia interfaz o acceder al repositorio a través de una tercera aplicación
esto es posible gracias a los FoundationServices de Alfresco, los cuales permiten
acceder al contenido del repositorio y realizar acciones sobre él. Se dispone entre
otros de servicios de autenticación, búsquedas, permisos, contenido. Entre otros).
El listado completo de los servicios se puede obtener dentro del fichero publicservices-context.xml. 10
10
Adformacion. (s.f.). Repositorio Alfresco. Recuperado el 28 de Septiembre de 2015, de Curso de Gestión
Documental con Alfresco: http://www.adrformacion.com/cursos/alfresco2/leccion1/tutorial6.html
70
ILUSTRACION 9: Alfresco repositorio
Estos servicios son la capa pública más baja de la API de Alfresco son publicados
a través de una interfaz JAVA. Cada uno de ellos está mapeado a un componente
que a modo de caja negra es capaz de ejecutar el código necesario para obtener
los resultados de los servicios solicitados. Además disponemos de un registro de
servicios que a modo de lista permite obtener los diferentes servicios disponibles.
Dado que Alfresco usa el framework de Spring, cada uno de estos servicios y
componentes está configurado mediante ficheros XML. En este artículo puede
encontrar cual es la estructura de estos ficheros y como funciona spring dentro de
Alfresco.
Las 3 acciones más típicas que realiza Alfresco serán las de subir, bajar y buscar
documentos. Estas acciones se realizan mediante 3 de estos servicios
apoyándose también en otros elementos ya existentes y probados dentro del
mundo Open Source como Hibernate o Lucene:
71
ILUSTRACION 10: Acciones Alfresco
 NodeService: En alfresco todos los elementos son tratados como nodos
pero con diferentes propiedades. Por ejemplo, un fichero es un nodo con
ciertas propiedades o metadatos como son el título, autor, fecha de
creación e incluso el propio contenido no es más que un metadato. A su vez
un espacio es también un nodo que tiene una asociación del tipo "contiene
a" con otros nodos.
El servicio encargado de trabajar con los nodos será el NodeService y toda
la información sobre los nodos se almacenará en base de datos.
 ContentService: El contenido suele estar referido a los ficheros binarios
que se sube o se crea dentro de Alfresco, es decir el fichero Power Point,
Word o PDF o cualquier tipo MIME. Estos ficheros binarios se almacenarán
en el sistema de ficheros del servidor (contentstore) siguiendo una
estructura de directorios ordenada por fecha.
Este servicio se encargará de la leer o escribir el contenido en el repositorio
así como de transformarlo de un tipo MIME a otro.
72
 SearchService: Cada vez que se sube contenido a Alfresco este es
indexado de forma automática, tanto sus metadatos como el contenido de
forma que no solo podemos buscar mediante el nombre del fichero o su
autor sino también por el contenido.
Este servicio utiliza por debajo Apache Lucene para el indexado y las
consultas.
Los índices generados por Lucene se almacenan también en el sistema de
ficheros. (ALFRESCO)11
Requerimientos del Hardware:
Número de usuarios
 Hasta 50 usuarios concurrentes o 500 usuarios casuales --------1 GB de
RAM para la JVM 2 procesadores o un procesador Dual
 Hasta 100 usuarios concurrentes o 1000 usuarios casuales -------- 1 GB de
RAM para la JVM 4 procesadores (o procesadores con múltiples núcleos)
 Hasta 200 usuarios concurrentes o 2000 usuarios casuales -------- 2 GB
de RAM para la JVM 8 procesadores (o procesadores con múltiples
núcleos)
Generalidades de Alfresco
Características generales:
 Organiza y facilita la gestión de contenidos de todo tipo: Documentos
ofimáticos, presentaciones, imágenes, XML, multimedia, entre otros.
11
Alfresco. (s.f.). Alfresco Repository Architecture. Recuperado el 28 de Septiembre de 2015, de
https://wiki.alfresco.com/wiki/Alfresco_Repository_Architecture
73
 Gestiona el ciclo de vida de los contenidos: Crear, compartir, versionar,
aprobar, publicar, retirar, archivar.
 Facilita el trabajo colaborativo: Foros, Notificaciones, RSS, Blogs, Wiki,
?Social Computing?.
 Provee un repositorio fuente basado en últimas tecnologías y estándares,
altamente escalable.(ALFRESCO)12
Exploración Alfresco
Para comenzar a trabajar con el software se realizó la instalación de la versión
alfresco-community-5.0.d-installer-win-x64. Se descargó de la siguiente página
https://www.alfresco.com/alfresco-community-download, en el anterior enlace se
encuentra el software para las diferentes sistemas operativos con esta versión
instalada se ingresa un usuario y se le dan permisos.
Ingreso
A la hora de instalar esta aplicación y desde el comienzo, podemos configurar los
puertos para no generar conflicto con otras aplicaciones que estén utilizando el
puerto de defecto el 8080 elegimos la opción avanzada donde se configura las
propiedades de servicio y los puertos de servidor (véase en las ilustraciones 11 y
12).
Solamente haríamos los cambios en los puertos de las dos ilustraciones y con el
resto se dejaría por defecto
12
Alfresco. (s.f.). JVM Tuning. Recuperado
https://wiki.alfresco.com/wiki/JVM_Tuning
74
el
28
de
Septiembre
de
2015,
de
ILUSTRACION 11: Opciones de configuración
ILUSTRACION 12: Configuración del puerto tomcat
Cuando se finaliza la instalación él se redirige a una página de inicio de sesión,
cada vez que iniciamos el servidor, debemos arrancar la aplicación se debe
75
buscar en el menú de inicio (variando del sistema operativo instalado en la
máquina), ese será lo primero de hacer antes de entrar al navegador.
Luego de esto, ingresa por su navegador de internet – entre los ya especificados
con anterioridad – a la dirección: < http://192.168.0.12: 5050/share/>.
Para nuestra práctica el inconveniente fue conectar el cliente al servidor alfresco.
Para acceder se utilizó el usuario de Alfresco “admin” con su password que se
creó desde la instalación “****" el cual tiene un rol de administrador (tiene los
derechos de control creación de usuarios, creación y edición de archivos, entre
otros).
A su vez se percibe que las especificaciones técnicas que manejan son las del
equipo que en este caso se usó como “servidor”.
ILUSTRACION 13: Interfaz Alfresco
Creación de usuario-concesión de permisos
76
Luego de subir archivos, se procedió a crear un usuario con un rol limitado (rol de
usuario) para verificar si se podía conectar desde otro equipo y las acciones que
éste puede realizar dependiendo de las asignaciones determinadas por el
administrador, que en este caso, fueron la remoción del permiso de eliminar y
editar archivos.
Para crear usuarios es necesario entrar con un rol de administrador:En la pestaña
de herramientas de administración se ubica en usuarios y grupos, elegimos
usuarios donde se desplegará la cantidad de usuarios que se encuentran
habilitados y sus respectivos roles, correo y si se encuentra activo o no. En el
botón nuevo usuario dar clic para adicionar usuarios,
Cuando se selecciona esta opción aparece un formulario con los respectivos datos
a ingresar y define el rol de dicho usuario.
ILUSTRACION 14: Formulario para crear usuarios
Al ingresar desde el cliente tuvimos inconvenientes no reconoce el servidor
solamente se puede visualizar desde el servidor el cliente
77
ILUSTRACION 15: Problemas con el cliente
NUXEO
¿Qué es?
Nuxeo es un software que permite implementar con gran funcionalidad
un repositorio documental corporativo. Aporta soluciones a las necesidades
primarias
de gestión
documental de
las
empresas,
permitiendo
gestionar
cómodamente documentos mediante control de versiones, flujos de trabajo
asociados, publicación remota o búsqueda avanzada a texto completo, además de
integración con suite ofimáticas habituales como Microsoft Office y Open Office.
Además, a través de Nuxeo DAM también se ofrece soporte para imágenes y
vídeos.
Su implementación es sencilla si lo que se quieren cubrir son necesidades no muy
específicas y además al estar desarrollado sobre estándares abiertos, cuenta de
entrada con la facilidad de ampliar su funcionalidad mediante desarrollo y resulta
interoperable con terceros lo cual pone al alcance de un mayor número de
78
técnicos el conocimiento necesario para trabajar sobre él, ganando así en
productividad. El que sea una plataforma significa que contempla el crecimiento
futuro (fase beta en positivo) y además lo ventajoso es que su adaptación a
propósitos específicos no es tan costosa como en el caso de Sharepoint,
Documentum, IBM FileNet, u otras soluciones cerradas.(ATENTO)
¿Qué documentos permite indexar?
Archivo permite guardar cualquier tipo de fichero (Microsoft Ofce, OpenOfce, PDF,
Multimedia, entre otros.).

Nota: Permite guardar texto mediante un editor de texto rico, proporcionado por la
herramienta.

Carpeta: Permite organizar el contenido de forma jerárquica.

Imagen: Permite guardar imágenes y tratar con ellas. El sistema de indexación
incluye el contenido de los documentos permitiendo buscar dentro del contenido
de ficheros en formatos PDF, DOC, PPT, XLS, ODT, entre otros.
Arquitectura Nuxeo
79
ILUSTRACION 16: Nuxeo plataforma
ILUSTRACION 17: Nuxeo EMC
Requerimientos de Hardware
80
Nuxeo corre sobre Linux, Windows y Mac OS X. Además los requisitos Hardware
son:
 RAM:
2 GB es la mínima cantidad de memoria para ejecutar Nuxeo.
 CPU:
Intel Core 2, equivalente o superior.
 Disco
Duro: Para la instalación de Nuxeo se requieren menos de 300 MB de
disco duro.(ATENTO)
Generalidades NUXEO
Características generales:
Captura
Arrastrar y saltar
Simplemente arrastrando y soltando desde el escritorio al navegador web
permite a los usuarios importar cualquier documento estándar ofimático a
Nuxeo DM (PDF, Microsoft Office, OpenOffice.org).
Esto supone grandes beneficios de productividad para los trabajadores que
utilizan contenido de una variedad de fuentes.
Captura basada en formularios
Nuxeo DM apoya la importación de documentos basada en formularios,
asegurando metadatos corporativos críticos asignados a los contenidos
mediante sencillas plantillas.
Captura mediante correo electronico
El correo electrónico y los archivos adjuntos pueden ser incluidos en Nuxeo
DM garantizando que la comunicación empresarial sea capturada clasificada y
compartida en los espacios de trabajo adecuados.
Integración de aplicaciones de escritorio
81
Ahorrar tiempo y organizar su almacenamiento de documentos con mayor
eficacia: Nuxeo DM le permite crear
editar y almacenar sus archivos de
oficina directamente desde Microsoft Office u OpenOffice.
Compartir y colaborar
Espacio de trabajo de colaboración
El espacio de trabajo de Nuxeo DM permite a los usuarios colaborar en
documentos con los colegas y los miembros del equipo independientemente
de su ubicación. Los usuarios pueden compartir sus mejores prácticas trabajar
juntos en proyectos, discutir las revisiones de los contenidos en un espacio
seguro de colaboración organizada. El área de trabajo Nuxeo DM es la
herramienta ideal para facilitar la gestión de los documentos activos y
archivados.
Microsofsharepoint y la integración de la oficina
Ahorrar tiempo y eliminar la confusión y la reproducción de contenido
empresarial: Nuxeo DM le permite crear, editar y clasificar los diferentes tipos
de documentos comunes directamente desde Microsoft Office. El apoyo WSS
garantiza el acceso constante a contenido de Sharepoint. La integración
natural con Windows Explorer garantiza a los trabajadores que puedan utilizar
los hábitos de navegación conocidos para acceder al contenido dentro de
Nuxeo DM y realizar operaciones de archivo comunes.
Cliente en la línea
El cliente en línea para uso sólo de lectura es el compañero perfecto para los
clientes de acceso remoto o móvil, ya que permite el acceso permanente y
seguro a los contenidos cuando una conexión de red no está disponible con
un servidor web ligero incorporado, el cliente en línea garantiza una
82
experiencia de usuario muy similar a la que los usuarios están acostumbrados
su interfaz de navegador web estándar.
Debates
Los debates permiten a los usuarios crear foros interactivos basados en los
documentos y sus contenidos. Los usuarios pueden compartir ideas, revisar
las ideas, colaborar en la creación de nuevos documentos.
Vista preliminar de documento
Nuxeo DM le permite pre visualizar todos sus documentos ofimáticos dentro
del
navegador
web.
Simplifica
actividades
rutinarias
como
la búsqueda rápida para un simple vistazo del contenido sin perder tiempo en
descargarlo y sin la necesidad de abrirlo en una aplicación del escritorio (como
Microsoft Office).
Anotaciones de contenido
La función de anotación de contenidos le permite añadir notas directamente a
un documento ofimático o a un archivo multimedia sin necesidad de modificar
el contenido del documento original. Es similar a una nota adhesiva, esta
característica le permite compartir ideas o un comentario con otros usuarios de
Nuxeo DM al tiempo que colaboran en el contenido común.
Gestión de registro
Nuxeo DM proporciona el marco para administrar la retención y el
cumplimento legal del contenido y los documentos. Nuxeo DM guarda y
archiva todas las acciones realizadas en el contenido en una historia
auditable, permite bloquear el contenido y asegura granulares ACL (acceso a
la lista de control) de seguridad por usuario grupo o función, y proporciona una
gestión del ciclo de vida basado en fechas o eventos.
83
Relaciones de contenido
Las características de las relaciones de Nuxeo DM se utilizan para describir
los vínculos semánticos que pueden existir entre los documentos, tales como
referencias cruzadas, entregas, traducciones u otros tipos de relaciones que
indiquen que un documento tiene un impacto en otro.
Cuadros de mando
Los cuadros de mando personales proporcionan a los usuarios un resumen de
las acciones, flujos de trabajo y documentos que son fundamentales para su
trabajo actual. Las tareas los documentos publicados recientemente, los
recordatorios, las fechas de vencimiento se presentan en una sola ubicación
para manejar fácilmente las actividades centradas en el contenido que hay
que hacer.
Publicar en la página web
Compartir contenido con un público más amplio se hace simple con la
posibilidad de publicar en sitios web.
Procesos y análisis
Ciclos de vida del documento
Calificar cada etapa del ciclo de vida del documento, desde la creación hasta
el
archivo.
Nuxeo
DM
permite
establecer
etapas
y
tareas
para
satisfacer requisitos del ciclo de vida simples y complejos.
Flujo de trabajo
Nuxeo DM incluye una función de flujo de trabajo intuitiva que permite a los
usuarios configurar fácilmente tareas sencillas o tareas con varias etapas. El
flujo de trabajo ayuda a que el contenido fluya a través de contenidos
estructurados o procesos de negocios ad hoc. Los flujos de trabajo se pueden
84
establecer rápidamente, guardándose para su posterior reutilización y con una
plantilla para garantizar la coherencia de los procesos a través de los equipos.
Pre visualización
Nuxeo DM le permite pre visualizar todos sus documentos de oficina dentro
del navegador web. Simplificar las actividades de rutina por un rápido vistazo
al contenido sin perder el tiempo en descargarlo a simple vista o que necesite
abrirlo en una aplicación del escritorio.
Anotaciones de contenido
La función de anotación de contenidos le permite añadir notas directamente a
un documento ofimático o archivo multimedia, sin necesidad de modificar el
contenido del documento original. Es similar a una nota adhesiva, esta
característica le permite compartir ideas o un comentario con otros usuarios de
Nuxeo DM a la vez que colaboran en el contenido compartido.
Auditoria
Nuxeo DM mantiene un historial de todas las acciones realizadas en los
documentos. Tanto las actividades del usuario como las actividades que el
sistema genera son capturadas y almacenadas, lo que permite una visibilidad
completa de cómo el contenido están siendo utilizado. Las organizaciones que
gestionan documentos inestables del sistema o tienen la obligación de cumplir
con
mandatos de cumplimiento legislativo o reglamentario utilizan la
funcionalidad del histórico para verificar el contenido.
Cuadros de mando
Los cuadros de mando personales proporcionan a los usuarios un resumen de
las acciones, flujos de trabajo y documentos que son fundamentales para su
trabajo actual. Las tareas, los documentos publicados recientemente, los
recordatorios, las fechas de vencimiento entre otros. se presentan en una sola
85
ubicación
para
manejar
fácilmente
las
actividades
centradas
en el
contenido.(Athento).
Experiencia NUXEO
Para comenzar a trabajar con el software se realizó la instalación de la versión
nuxeo-7.4.
Se
descargo
de
la
siguiente
pagina
http://www.nuxeo.com/downloads/#downloads, en el anterior enlace se encuentra
el software para las diferentes plataformas, con esta versión instalada, se
realizaron pruebas básicas como lo son el ingreso a la aplicación en distintos
navegadores (Firefox, Chrome e Internet Explorer), creación de usuarios y algunas
interacciones.
Ingreso
Al finalizar la instalación de esta aplicación, deja un acceso directo y se ejecuta y
nos aparece una pantalla (véase en la ilustracion18), damos clic en la opción
“Open in browser”, donde remite a una página para empezar la configuración de
nuxeo por medio web (véase en la ilustración 19),
recordarles si tienen otro
servidor con el mismo puerto no dará resultado tener el gestor documental
86
ILUSTRACION 18: Nuxeo panel de control
ILUSTRACION 19: Configuración de inicio
Debemos asignarle la dirección IP del servidor (véase ilustracion20)
87
ILUSTRACION 20: Asignación IP del servidor
Al haber finalizado la debida configuración de la plataforma Nuxeo y seleccionar
cuales
de
los
módulos
que
desea
instalar.
Si usted apenas está evaluando la plataforma Nuxeo, puede dejar las opciones
por defecto, Conecte como administrador / administrador y empezar a interactuar.
Ingresa por su navegador de internet – entre los ya especificados con anterioridad
– a la dirección:< http://IP del servidor: 8080/nuxeo/>.
Para acceder se utilizó el usuario del servidor “Administrator” con su password
“Administrator " el cual tiene un rol de administrador (tiene los derechos de control,
creación de usuarios, creación y edición de archivos, entre otros).
88
ILUSTRACION 21: Ingreso al servidor Nuxeo
ILUSTRACION 22: Interfaz de usuario de Nuxeo
Creación de usuarios-concesión de permisos
Luego de subir archivos se procedió a crear un usuario con un rol limitado (rol de
usuario) para verificar si se podía conectar desde otro equipo y las acciones que
éste puede realizar dependiendo de las asignaciones determinadas por el
89
administrador que en este caso fueron la remoción del permiso de eliminar y editar
archivos.
Para crear usuarios es necesario entrar con un rol de administrador:
En la pestaña el centro de administrador se da clic en usuarios y grupos, prosigue
dando clic en crear un nuevo usuario donde se desplegará la cantidad de usuarios
que se encuentran habilitados y sus respectivos roles, correo y si se encuentra
activo o no.
Cuando se selecciona esta opción aparece un formulario con los respectivos datos
a ingresar y define el rol de dicho usuario.
ILUSTRACION 23: Formulario para crear usuarios
Al completar los datos el usuario está creado y está listo para usarse desde otra
máquina teniendo en cuenta que se debe configurar con la dirección del equipo
utilizado como servidor. Por ejemplo, en este caso se escribe la IP del equipo
(<http://192.168.0.12:5050/nuxeo/) para que acceda a los documentos ya
guardados.
90
ILUSTRACION 24: Ingreso usuario chrome
ILUSTRACION 25: interfaz de cliente nuxeo
91
ILUSTRACION 26: Ingreso usuario Explorer
ORFEO
¿Qué es?
Es un Sistema de Gestión Documental (SGD) desarrollado en Colombia por la
Superintendencia de Servicios Públicos bajo la Licencia Pública General
GNU/GPL la cual está orientada principalmente a proteger la libre distribución,
modificación y uso de software. Este SGD emplea las normas técnicas y prácticas
para la administración de los flujos documéntales y archivísticos con el fin de
garantizar la calidad de los procesos documentales dentro de una organización.
Orfeo es un sistema web que le permite a la organización acceder fácilmente
mediante cualquier navegador a través de Internet o Intranet para gestionar la
trazabilidad de los documentos, evitando así en un gran porcentaje el manejo de
documentos físicos.(Orfeo libre )
92
¿Qué documentos permite indexar?
Orfeo permite incorporar la gestión de los documentos a los procesos de cualquier
organización automatizando procedimientos con importantes ahorros en tiempo,
costos y recursos tales como toners de impresora, papel, fotocopias, entre otros,
así como el control sobre los documentos.
Además de la SSPD, Orfeo está siendo utilizado y/o implementado en un
sinnúmero de entidades tanto públicas como privadas que reúnen ya más de
15000 usuarios y está siendo estudiado su uso por parte de entidades y
organizaciones en otras partes del mundo gracias a su filosofía de Software Libre.
Esta herramienta puede instalarse en cualquier sistema Operativo (GNU/Linux,
Unix, Windows,...) con diferentes bases de datos (PostgreSQL, Oracle y MS SQL
Server), además maneja múltiples tipos de Formatos (ODT, XML, DOC) logrando
así obtener independencia de plataforma tecnológica y reducción de costos en la
implementación.(Orfeo Libre).
Arquitectura Orfeo
Estado actual:
Considerando que el sistema no cuenta con una arquitectura escalable, hace que
hoy día las labores de mantenimiento del sistema y la realización de ajustes
demanden una gran cantidad de tiempo y recursos. Se han identificado las
siguientes situaciones:
 No usa un framework de desarrollo que apoye la abstracción de
funcionalidades básicas dentro de un aplicativo web.

Modelo de datos inconsistente ya que existen tablas y campos que no se
utilizan, faltan relaciones entre algunas tablas que permitan asegurar la
consistencia de los datos.
93
 Documentación pobre y desactualizada. El conocimiento depende de pocas
personas lo que dificulta la divulgación para manejo, soporte y/o
mantenimiento.
 El modelo de datos no contempla un modelo flexible de seguridad que
incorpore el concepto de Roles y Usuarios.
 Gran dificultad para incluir nuevas reglas de acceso a funcionalidades
asociadas a parámetros como: dependencia, características del documento
(visibilidad, estado, tipo, entre otros.).
 Las labores de mantenimiento del sistema y la realización de ajustes
demandan una gran cantidad de tiempo y recursos.
 Dificultad para integrar el sistema actual de Orfeo con otras aplicaciones.
 Duplicidad de los registros de las personas naturales y jurídicas en la base
de datos del sistema de gestión documental.
 Dificultad para realizar modificaciones de los parámetros básicos.(lopez)
ILUSTRACION 27: Funcionamiento ORFEO
94
Generalidades Orfeo
Características generales
 Interfaz gráfica web fácil de usar similar a la de un correo electrónico.
 Digitalización de documentos. ORFEO posee un módulo de digitalización
que genera imágenes de los documentos físicos en formato tiff y pdf.
 Permite la parametrización del proceso de radicación de documentos
(entrada, salida, resoluciones, memorandos entre otros).
 Generar expedientes virtuales siguiendo los lineamientos técnicos y legales.
 Generación de reportes de gestión, niveles de producción, requerimientos
respondidos entre otros.
 Agiliza las búsquedas de documentos y expedientes por diferentes campos
de búsqueda 8fechas, usuarios, tipos de documentos entre otros).
 Gestión sobre el documento: reasignar, agendar modificar archivar
incorporar en expedientes. Tipificar el documento (a partir de las tablas de
retención documental).(Orfeo Libre).
Experiencia Orfeo
Para comenzar a trabajar con el software se debe tener en cuenta algunos
aspectos que ayudara a la navegación de Orfeo.

En el siguiente enlace se encuentra los manuales de instalación para las
diferentes distribuciones.
http://www.orfeogpl.info/wiki/Manuales_de_Instalacion

En caso de que los manuales no sean de gran ayuda se puede descargar
imágenes (iso) o máquinas virtuales,
95
en donde su contenido tiene su
respectivo sistema operativo e instalado el sistema de gestión documental
Orfeo, donde la empresa SKINATECH aliado con Orfeo
nos deja a su
disposición.
http://www.orfeolibre.org/portal/index.php/decargas-y-enlaces/34kuane-livecd
http://www.orfeolibre.org/portal/index.php/decargas-y-enlaces/30maquinas-virtuales

La siguiente práctica se realizó con una imagen de un sistema Ubuntu
12.04.2 AMD64 que trae pre-instalada la versión 3.8.4 de OrfeoGPL. El
archivo para descargar es uniso y se ejecutó en una máquina virtual (virtual
box).
http://wiki.orfeogpl.info/orfeogplive/orfeogplive_v01.iso
Ingreso
Antes de la instalación se debe revisar la bios setup, ya que la imagen iso es de
64 bits no de 32, para que no tengan inconvenientes con ejecutar la imagen, en
varias ocasiones se presentó ese inconveniente a la hora de realizar la práctica y
configurar la red del virtual box.
96
ILUSTRACION 28: Configuración Bios
Ingresamos desde la maquina virtual y se ejecuta el iso
ILUSTRACION 29: Ingreso maquina virtual
Se presentará lo siguiente y se debe dar clic en el botón probar Ubuntu, no
ejecutar el otro botón ya que se llevará a las instalación de Ubuntu.
97
ILUSTRACION 30: Opciones de ingreso Ubuntu
Al ingresar mostrará el escritorio e ingresaran al terminal para visualizar que el
gestor documental Orfeo se encuentra instalado en el sistema operativo.
ILUSTRACION 31: Librería Orfeo
98
Con lo anterior ya se tiene listo el Orfeo para utilizarse, en esta práctica a la hora
de ingresar al navegador se debe asignar una IP al servidor en este caso se
realizo con una IP publica la dirección es 192.168.0.25 (véase en la ilustración 32).
ILUSTRACION 32: IP del servidor
Ingresar con la dirección 192.168.0.25, para conectar el cliente con el servidor, en
este caso se hará con la maquina real.
ILUSTRACION 33: Ingreso al servidor Orfeo
99
Al
tener una conexión con el servidor se prosigue a
ingresar los datos de
administrador el usuario “ADMON” y password “123” pulsamos ingresar.
ILUSTRACION 34: Interfaz de usuario de Orfeo
Creación de usuarios-concesión de permisos
Se procedió a crear un usuario con un rol limitado (rol de usuario) para verificar si
se podía conectar desde otro equipo y las acciones que éste puede realizar
dependiendo de las asignaciones determinadas por el administrador que en este
caso fueron la remoción del permiso de eliminar y editar archivos.
100
Para crear usuarios es necesario entrar con un rol de administrador:
En la pestaña de administración, se da clic en usuarios y perfiles, clic en crear en
usuario, donde se desplegará los datos.
.
ILUSTRACION 35: Formulario para crear usuarios
Al completar los datos el usuario, se asignan los permisos para dicho usuario
ILUSTRACION 36: Permisos de usuario
101
Se ingresa el usuario “johnM” y password “123” al ingresar, pedirá nueva clave.
ILUSTRACION 37: Ingreso de cliente Orfeo
ILUSTRACION 38: Cambio de clave
102
ILUSTRACION 39: Ingreso usuario chrome
ILUSTRACION 40: Ingreso usuario Internet Explorer
103
14. ANEXO C: Implantación del Gestor documental a la fundación ONE TWO
TREE
Al tener en cuenta las 7 recomendaciones para escoger un gestor documental, la
implantación del sistema de gestión documental a la fundación ONE TWO TREE
se ha tomado la decisión de implantar el sistema OpenKM, por su fácil instalación,
fácil interacción con la interfaz gráfica, por la seguridad y el buen manejo que se le
da a los componentes que el Gestor Documental nos ofrece, entre otros. La cual
se seguirá explorando más allá en el Gestor Documental OpenKM
Experiencia OpenKM
Importar carpetas
Para importar datos se requiere tener permisos de administrador y tenerlo
disponible en el servidor, en la parte superior se dirigen a herramientas, en la
pestaña mostrar Administración, en el ícono de Importación aparecerá un menú
en el cual tiene que especificar la ubicación de donde se desea importar el
documento y el lugar dentro de la cual se requiere que se almacenen los
documentos. El proceso demorará dependiendo del tamaño del archivo.
ILUSTRACION 1: Importar carpetas OpenKM
104
ILUSTRACION 2: Visualización
Creación de carpetas
Para la creación de carpetas no se requiere necesariamente tener permisos de
administración, todo depende si está autorizado para crear carpetas y/o
documentos en la ubicación deseada.
Estando en la pestaña de escritorio, en la sección de taxonomía se encuentra la
carpeta okm:root.
ILUSTRACION 3: Carpeta okm:root
Da clic derecho sobre la mencionada carpeta, al realizar esta operación se
desplegará una ventana y seleccionará la opción: Crear carpeta.
105
ILUSTRACION 4: Crear carpeta
Opción crear carpeta
Al elegir esta opción aparecerá una nueva carpeta lista para ponerle el nombre
deseado, se presiona la tecla <Enter> y queda creada la carpeta.
ILUSTRACION 5: Opción editar carpeta
Búsqueda básica de carpetas
Para buscar cualquier carpeta, debe dirigirse a la parte superior izquierda,
desplegar el menú de archivo y seleccionar la opción Buscar carpeta.
ILUSTRACION 6: Búsqueda básica de carpetas.
106
Luego aparecerá una ventana, en la que podrá escribir el nombre de la carpeta
que está buscando.
ILUSTRACION 7: Ventana: filtrado por carpeta.
Aparecerán todas aquellas carpetas que contengan el filtro que digitó, luego
selecciona la carpeta que está buscando y da clic en la opción Ir a la carpeta.
Búsqueda básica de documentos.
Se repite el mismo procedimiento anterior solo que en lugar de seleccionar la
opción de Buscar archivo, selecciona la opción Buscar documento
ILUSTRACION 8: Búsqueda básica de documentos.
Búsqueda de documentos similares.
Selecciona el documento deseado, luego va a la pestaña <archivo> y selecciona
la opción <Buscar documentos similares>, si el documento seleccionado tiene
palabras en común con otros documentos se abrirá una ventana mostrando la ruta
107
de los otros documentos de lo contrario la opción <Buscar documentos similares>
estará inhabilitada.
ILUSTRACION 9: Búsqueda de documentos similares.
Mover documentos y/o carpetas.
Se dirige a la carpeta o documento que necesite mover, da clic derecho y se
despliega un menú en el cual seleccionará la opción Mover
.
ILUSTRACION 10: Opción mover documento y/o carpetas.
Al seleccionar esta opción aparecerá una ventana con la taxonomía de su
repositorio.
108
ILUSTRACION 11: Selección de carpeta a (Mover)
En la barra superior (encerrada en rojo), se tienen múltiples opciones:
<Taxonomía>, <Plantilla>, <Documentos personales> o <Correo electrónico>, elija
la opción en la que desee ver el repositorio, luego selecciona la ubicación a la que
necesite mover la carpeta o documento y finalmente de clic en la opción Mover
Copiar documentos y/o carpetas
Seleccione la carpeta o el documento que requiera copiar; al dar clic derecho se
desplegará un menú, en que seleccionará la opción <Copiar>.
ILUSTRACION 12: Copiar documentos y/o carpetas.
109
Aparecerá la ventana con la taxonomía del repositorio, seleccione la carpeta
destino y de clic sobre la opción Copiar.
ILUSTRACION 13: Seleccionar carpeta destino a copiar
Eliminar documentos y/o carpetas
Si su usuario tiene permisos de borrarla, debe dar clic derecho sobre la carpeta
y/o el archivo que se vaya a eliminar, se expandirá una ventana en la que dará clic
en la opción Eliminar.
ILUSTRACION 14: Opción Eliminar
Y luego, de clic en la opción aceptar.
110
Edición de documentos
Para poder editar un documento, el usuario debe tener permisos de lectura y
edición, selecciona el documento a editar y da clic en la opción <Editar>
(encerrada en rojo)
ILUSTRACION 15: Opción Editar
El programa abrirá el documento seleccionado, realice la edición que desee y
luego guarde y cierre el documento. Estando en OpenKM de clic en el icono de
actualización de documentos:
ILUSTRACION 16: Icono actualizar documentos.
Prosiga dando clic en la opción <enviar> de la ventana: actualización de
documentos y quedará guardada la edición que usted haya realizado.
111
ILUSTRACION 17: Ventana actualizar documentos.
En caso de que se desee abortar la edición de documentos, debe dar clic en el
icono Cancelar edición
ILUSTRACION 18: Icono cancelar edición
Edición e palabras claves
La edicion de palabras claves, describe e identifica al archivo para futuras
búsquedas facilitando encontrar el archivo deseado. Para adicionar palabras
claves debe seleccionar el documento, carpeta o archivo que desee, en la parte
inferior tiene múltiples opciones, en la pestaña de <Propiedades> en la sección de
palabras claves (Encerrada en rojo en la ilustración 59) se agrega la palabra clave
y se digita enter.
112
ILUSTRACION 19: Palabras claves
Descarga de documentos
Para descargar documentos hay dos maneras muy sencillas, la primera es dar clic
derecho sobre el documento que se va a descargar y seleccionar la opción
Descargar
ILUSTRACION 20: Descarga-clic derecho
La segunda manera es seleccionar el icono <Descargar> y aparecerá la ventana
de ubicación de la descarga.
113
ILUSTRACION 21: Icono de descarga
Accesos directos de teclado
Accesos directos del teclado en OpenKM
FUNCIÓN
Renombrar
Borrar
Copiar
Cortar
Pegar
Inserción de
documentos
Crear carpeta
Ayuda
Refrescar espacio de
trabajo
ACCESO TECLADO
F2
Supr.
Ctlr + Shif + C
Ctlr + Shif + X
Ctlr + Shif + V
Insert
Ctrl + N
F1
F5
Selección Masiva
Para la selección rápida o masiva debe dar clic en el icono de <Selección>, que
dará múltiples opciones, por ejemplo selección solo de carpetas, selección solo de
documentos o selección de todo (Carpetas y documentos).
ILUSTRACION 22: Icono de selección
114
Después de seleccionar los documentos o carpetas que se requieran, se da clic
derecho sobre cualquiera de los documentos seleccionados y se elige la operación
que desee, operaciones básicas como: eliminar, copiar o mover, u operaciones
específicas como inserción de notas, palabras clave, entre otras.
Mis documentos
Para ir a <Mis documentos> seleccione la pestaña de <Documentos personales>,
aparecerán todas las carpetas propias de cada usuario, el acceso a cada carpeta
(por defecto) está restringido únicamente al dueño de la carpeta si desea cambiar
esto vea: Administración de carpetas y documentos. En esta carpeta puede
almacenar sus documentos personales y tener la seguridad que nadie más puede
acceder a ella.
ILUSTRACION 23: Documentos personales
En caso de que no aparezca la carpeta de su usuario por defecto, tendrá que
proceder a crearla.
Creacion de notas en documentos y/o carpetas
Para crear notas y/o comentarios acerca del documento, seleccione el archivo al
cual se le desea insertar una nota, y en la parte inferior seleccione la pestaña de
<Notas>, allí se inserta la nota (ilustración 64.), con múltiples opciones de tamaño
y tipo de letra, entre otras.
115
ILUSTRACION 24: Inserción de notas
Administración de carpetas y documentos
Para administrar los permisos de lectura, escritura, borrado y seguridad de un
documento y/o carpeta, seleccione el archivo en cuestión y en la parte inferior en
la pestaña <Seguridad> elija la opción actualizar.
ILUSTRACION 25: Administración de archivos
Aparecerá una ventana la cual tiene dos opciones de administración, la primera a
nivel general (“Roles”) en la que solo se distingue únicamente dos roles: el rol de
116
usuario y el rol de administrador, y la segunda opción (“Usuarios”), reconoce cada
uno de los usuarios con acceso al repositorio.
En cualquiera de los dos casos se selecciona el usuario o rol de usuario que se
desee administrar y da clic en la flecha con dirección a la derecha.
ILUSTRACION 26: Selección de usuario
Aparecerá el usuario seleccionado en la parte derecha con las opciones de
seleccionar o des-seleccionar los permisos del archivo previamente elegido, una
vez se haya hecho la administración deseada, deberá dar clic en la opción
<Cerrar> y en la pestaña de seguridad se mostrará la administración de archivos
actualizada (ilustración 67).
117
I
LUSTRACION 27: Selección de usuario
Historial de documentos específicos
Para ver las modificaciones que ha sufrido el archivo desde su creación, este se
selecciona y luego en la parte inferior da clic en la opción <Historial> y se
desplegará las lista de modificaciones que ha tenido el documento junto con las
fechas y horas exactas, además tendrá la opción de restaurar el documento a un
estado anterior o visualizarlo como se encontraba antes (Ilustración 68)
ILUSTRACION 28: Historial de documentos específicos
Si desea borrar el historial debe seleccionar la opción <Compactar histórico>,
aparecerá una ventana que le pregunta si está seguro de borrar el histórico del
documento y dará clic en la opción Aceptar.
Búsqueda avanzada de archivos
Para realizar una búsqueda avanzada de cualquier documento o carpeta se da clic
en la opción <Buscador> que se encuentra en la parte superior derecha de la
118
interfaz gráfica de OpenKM, se selecciona <Ver búsqueda avanzada>, en la parte
izquierda ingresa los datos necesarios para realizar la búsqueda de su archivo.
En la pestaña <Básico> podrá ingresar datos como nombre, contenido y palabras
claves del archivo, entre otras opciones y presionar enter para realizar la
búsqueda.
En la pestaña <Avanzada>, tendrá opciones más específicas sobre el archivo en
cuestión, por ejemplo podrá seleccionar si lo que busca es un documento, un
correo o una carpeta, además contará con la opción de seleccionar el tipo de
documento (Word, Excel, Power Point,entre otros.)
ILUSTRACION 29: búsqueda avanzada
Idioma
Al ingresar a OpenKM, en la parte inferior se tiene la opción de idioma con el que
desea ingresar (OpenKM únicamente trae como opción inicial: Español, Inglés y
Francés) en la que podrá escoger el idioma deseado, pero una vez ingresado al
repositorio, también se puede cambiar el idioma seleccionando la opción
<Herramientas>, luego <Idiomas> y finalmente el idioma de preferencia.
Registro de actividades
Únicamente los usuarios con rol de administrador pueden ver el registro de
actividades de todos los usuarios. Debe seleccionar la pestaña <administración>,
119
ubicada en la parte superior derecha de la interfaz gráfica y luego dar clic en el
icono encerrado en rojo de la Ilustración 70.
ILUSTRACION 30: Registro de actividades
En esta sección podrá ingresar rangos de fecha, usuarios específicos o acciones
exactas de las que requiera información, una vez ingresa los datos da clic en
<Search> y aparecerá el historial con las características que haya elegido.
Combina documentos
Para fusionar documentos .PDF, el usuario debe elegir los archivos a combinar,
dar clic derecho y seleccionar la opción <Fusionar PDF>, después saldrá una
ventana con los archivos previamente escogidos (ilustración 71).
ILUSTRACION 31: Funcionar PDF
Las flechas verdes permiten ordenar el documento seleccionando el orden en que
deben ir ubicados los documentos, una vez estructurado el nuevo PDF, se escribe
el nombre que elija y da clic en la opción Fusionar y quedará combinado el nuevo
documento sin eliminar los archivos anteriormente escogidos.
120
Enviar documentos como archivos adjuntos
Los archivos solo podrán enviarse a usuarios OpenKM, como un archivo adjunto
de correo electrónico, tendrá que seleccionar el archivo a enviar, luego ir a
Archivos y elegir la opción Enviar documento adjunto, aparecerá la siguiente
ventana.
ILUSTRACION 32: Envió de documentos adjuntos
Allí podrá elegir uno o más usuarios a los que desee enviar el documento adjunto,
junto con una descripción o mensaje de notificación, luego da clic en la opción
Enviar, y aparecerá un recuadro que le notifique que su correo ha sido enviado
correctamente.
Subir un documento encriptado
Para subir un documento encriptado, debe ir al panel de <Herramientas>,
seleccionar la opción Cryptografía y seleccionar Subir documento encriptado luego
aparecerá un ventana en la que debe escribir una contraseña, la que desee, y
luego aparecerá una ventana en la que podrá seleccionar el documento encriptado
que esté buscando.
121
ILUSTRACION 33: Ejemplo de documentos encriptados
Escaneo y subida directa de documentos
Para escanear documentos, el usuario debe ir al icono de escáner en la parte
superior
ILUSTRACION 34: Icono escáner
Luego aparecerá una ventana en la podrá poner el formato y el nombre que desea
que tenga el documento a escanear, y luego dará clic en la opción Scanear y Subir
ILUSTRACION 35: Scan Y Upload
122
Extracción de estadísticas
Esta opción solo está habilitada para los administradores, se encuentra en la
sección de administración en el icono de <Statistics> y muestra todo lo
relacionado con el repositorio tamaño de uso y disponibilidad de espacio del disco,
de la memoria JVM, entre otros, le permite al administrador, saber de una manera
bastante gráfica como se está manejando la gestión del conocimiento de su
organización.
ILUSTRACION 36: Estadísticas
Exportación de reposito
Está acción solo la pueden realizar usuarios con permisos de administración
selecciona la pestaña <Administración> y da clic en el icono de Exportar
(Ilustración 77).
123
ILUSTRACION 37: Estadísticas
En la sección: Repositorypath, se selecciona la ruta de los archivos en OpenKM,
en la opción Filesystempath se ingresa la ruta del servidor o computador a donde
se van a pasar los archivos. Si desea incluir Metadatos y el historial de los
archivos seleccione ambos cuadros, de lo contrario deje los cuadros sin
seleccionar y seleccione la opción <Export>.
De esta manera los archivos que seleccionó anteriormente quedarán guardados
en su computador o servidor.
Administración de perfiles (Parámetros especiales)
ILUSTRACION 38: Estadísticas
Al entrar en la sección Administración, debe dar clic en el icono UserProfiles y
luego ingresar a la figura <Editar>, saldrá la ventana que se muestra a
continuación.
124
ILUSTRACION 39: Parámetros especiales en la administración de usuarios
En esta sección se pueden configurar distintos grupos de trabajo con diferentes
permisos a determinadas carpetas del repositorio, además puede seleccionar las
columnas adicionales que desea que vean, para ello debe ingresar a la pestaña
Others y en donde dice Column podrá seleccionar las columnas que sean
pertinentes para el usuario.
Para poder visualizar las columnas adicionales, debe cerrar OpenKM y volver a
cargar el sistema, de esta manera podrá observar todos los cambios
anteriormente realizados
125
ILUSTRACION 40: Columnas adicionales
Pre visualización
Para poder pre visualizar los archivos o imágenes en la versión Community de
OpenKM es necesario realizar la configuración y es primordial tener instalado en el
servidor OpenOffice o LibreOffice, Flash Player e Imagemagick ya que OpenKM
necesita convertir los archivos a SWF (Shockwave Flash Movie –archivos de
Adobe Flash Player) y configurar los siguientes líneas en el menú disponible en el
rol de Administrador.
126
ILUSTRACION 41: Elementos configurar para habilitar la pre visualización
Estas líneas pueden editarse en la misma pestaña de configuración haciendo clic
en el lápiz, para ello se debe tener cuidado en que sistema operativo se está
trabajando puesto que los directorios cambian si se está trabajan en Windows o en
alguna distribución libre (Linux):
ILUSTRACION 42: Listado de opciones de configuración
El resultado es:
ILUSTRACION 43: Pre visualización de imágenes
127
15. CONCLUSIÓN
Debido a la necesidad de un mejor manejo de la información es de gran
importancia un software especializado en la gestión del conocimiento para facilitar
los procesos dentro de una organización o persona independiente.
En el mercado se encuentran diferentes software libres en relación al manejo de la
información que difieren únicamente en su resultado final, existen gestores de
conocimientos, de archivos, contenidos empresariales, entre otros.
Existen gestores del conocimiento altamente competitivos, entre ellos OpenKM es
un software muy amigable gráficamente, puede gestionar grandes volúmenes de
información, administración de permisos, reportes de gran utilidad y es seguro
para la información que guarda con tanto recelo.
La diferencia entre la versión OpenKM trial y free, es leve y aquellas diferencias
que favorecen a la versión trial no se consideran de uso esencial dentro de la
Fundación ONE TWO TREE.
En caso de querer adquirir la versión profesional de OpenKM se debe pagar una
licencia la cual incluye soporte técnico, integración con Dropbox y Google Docs
(de esta manera se puede realizar la edición de un documento en línea sin
necesidad de descargarlo, además permite la edición por varios usuarios
simultáneamente), entre otros.
.
128
16. ANEXO E: Bibliografía
(OpenKM Knowledge Management. (s.f.). Arquitectura.Recuperado el 15 de
Septiembre de 2015, de http://www.openkm.com/en/product/architecture.html
ALFRESCO. (s.f.). Alfresco Enterprise. Recuperado el 28 de Septiembre de 2015,
de http://docs.alfresco.com/4.0/concepts/welcome-infocenter.html
Athento. (s.f.). NUXEO DM: CARACTERÍSTICAS. Recuperado el 16 de Octubre
de 2015, de http://www.athento.com/nuxeo/caracteristicas/
GEDSA INGENIERIA DOCUMENTAL. (s.f.). 7 cosas a tener en cuenta para
seleccionar un software de Gestion Documental. Recuperado el 15 de Septiembre
de 2015, de http://www.gedsa.es/2013/06/7-cosas-a-tener-en-cuenta-paraseleccionar-un-software-de-Gestion-Documental.html
OpenKM Knowledge Management. (s.f.). Características.Recuperado el 15 de
Septiembre de 2015, de http://www.openkm.com/en/product/features.html
OpenKM Knowledge Management. (s.f.). Gestión Documental Open
Source.Recuperado el 15 de Septiembre de 2015, de http://www.openkm.com/es/
OpenKM
Knowledge
Management.
(s.f.).
Requerimientos
Hardware.Recuperado
el
15
de
Septiembre
de
2015,
http://www.openkm.com/en/product/hardware-requirements.html
de
de
OpenKM Knowledge Management. (s.f.). Tecnología.Recuperado el 15 de
Septiembre de 2015, de http://www.openkm.com/en/product/technology.html
Orfeo Libre. (s.f.). SISTEMA DE GESTIÓN DOCUMENTAL. Recuperado el 22 de
Octubre de 2015, de http://www.orfeolibre.org/portal/index.php/the-news/2uncategorised/63-sgd-leermas
17. ANEXO F: Que es un crawler
Es un agente del tipo bot que recorre recursivamente el World Wide Web bajo
algún orden predeterminado y que recopila información acerca de los documentos
129
que encuentra y su estructura de vínculos. El índice de páginas generado por los
crawlers es utilizado como parte central de cualquier sistema de acceso a la
información en el WWW (como motores de búsqueda).
Son programas encargados de realizar las búsquedas dentro de las bases de
datos de documentos web. Actualmente se clasifican en tres categorías
principales: motores de búsqueda temática, también conocidos como directorios o
catálogos; motores de búsqueda por palabras claves o "crawlers" y sistemas
basados en el "content-routing"
Un robot, es el programa que rastrea la web tomando información sobre las
páginas que encuentra. Cada robot trabaja en forma particular generalmente
parten de una lista determinada y a partir de ahí hacen un rastreo recursivo de los
documentos que se referencia en un documento. Un índice es la base de datos
que contiene una copia completa o parcial de los documentos reunidos por el
robot. Un Mecanismo de búsqueda, programa que permite al usuario encontrar
páginas de su interés que estén en el índice a través de una página web y que
devuelve resultados correspondientes a la búsqueda ordenados según los criterios
establecidos previamente por el usuario.
Buscadores verticales
Buscadores especializados en un sector concreto, lo que les permite analizar la
información con mayor profundidad disponer de resultados más actualizados y
ofrecer al usuario herramientas de búsqueda avanzadas. Es importante resaltar
que utilizan índices especializados de esta manera acceder a la información de
una manera más específica y fácil (Yahoo!, msm, google, ask, terra, ubbi,) (manz,
2007)
18. ANEXO G: Funcionalidad de un crawler
El funcionamiento de un crawler o robot de navegación tomar una dirección URL
(o identificador de un sitio Web) a partir de una lista, descargar su contenido (sus
páginas HTML), clasificarlo y aprovechar los enlaces de dichas páginas para hacer
130
una nueva búsqueda con cada documento vinculado. A su vez, cada nuevo
documento vinculado se clasifica nuevamente. Un componente llamado “gestor de
descargas” examina el contenido de un sitio web, crea un documento con sus
metadatos y almacena el contenido en un repositorio. También busca en dicho
sitio más enlaces o URLs, los cuales son enviados a una cola de espera para su
procesamiento posterior. Por otro lado, hay un módulo llamado “programador”, que
se encarga de tomar los enlaces de la cola de espera para enviarlos al
programador y realizar con él un nuevo proceso llamado barrido de segundo nivel.
(Iván Camargo Sarmiento, 2013)
ILUSTRACION 1: Funcionalidad de un crawler
¿Cómo funciona un motor de búsqueda?
Se puede decir, simplificando mucho que un motor de búsqueda consta de cuatro
partes:

Un interfaz para el usuario para hacer peticiones de búsqueda

Un robot o spider que busca la información en Internet

Un algoritmo que conecta las peticiones de los usuarios con la base de
datos

Y una base de datos donde se han indexado los contenidos
El corazón de todo motor de búsqueda es sin duda el algoritmo que dirige al
robot o spider y después categoriza la información que se mostrará tras las
peticiones de los usuarios.
131
Estos algoritmos son realmente complejos y solo sus propios desarrolladores
saben cómo funcionan.
Nota: Se hace una mención a satriadityo en el cual suministra el código fuente del
siguiente enlace https://github.com/satrioadityo/Netbeans-Java-Web-Crawler el
cual se hizo las modificaciones concordes a nuestro alineamiento del proyecto.
19. ANEXO H: Diseño, desarrollo y pruebas del crawler
TABLA 1: Caso de uso 1
Caso de uso
Caso de Prueba
Actor
CU_01 Ingreso de la dirección web
Cp_01 Ingreso de la dirección web
Usuario
Precondiciones
Tener acceso a internet
Propósito
Buscar página web
escenarios
CP_01_E01: Verificar si ingresaron la URL' de la
pagina
Sec.
Actividad
Clase de equivalencia
1
Explorar la
Validad
URL ingresada
por el usuario
TABLA 2: Caso de uso 2
Caso de uso
Caso de Prueba
CU_02 Almacenar resultado
Cp_02 Almacenar resultado
132
Resultados
Extraer el contenido de
la exploración del
crawler
Actor
Usuario
Precondiciones
ingresar la URL
Propósito
Almacenar información explorada de la URL
escenarios
CP_02_E01: Comprobar si la dirección de
almacenamiento es correcta
Sec.
1
Clase de
Actividad
equivalencia
El usuario selecciona la
Validad
ruta de almacenamiento
de resultados
Resultados
Visualizar la ruta de
almacenamiento
donde van a ser
guardadas la
información
escaneada por el
crawler
TABLA 3: Caso de uso 3
Caso de uso
Caso de Prueba
Actor
CU_03 Limite del crawler
Cp_03 Limite del crawler
Usuario
Precondiciones
Visualizar la dirección de la página que se va a explorar
Observa la ruta de almacenamiento
Propósito
Delimitar la profundidad del crawler
escenarios
CP_03_E01: Verificar el número de profundidad de
exploración
Clase de
Sec.
Actividad
equivalencia
1
Visualizar el límite del
Validad
crawler
TABLA 4: Caso de uso 4
Caso de uso
Caso de Prueba
CU_04 Dar la ruta de almacenamiento de las URL
Cp_04 Dar la ruta de almacenamiento de las URL
133
Resultados
Visualizar los datos del
crawler y su
profundidad
Actor
Precondiciones
Propósito
escenarios
Usuario
Visualizar la dirección de la página que se va a
explorar
Observa la ruta de almacenamiento
Visualizar el límite del crawler
Almacenar las URL visitadas
CP_04_E01: Guardar ruta de almacenamiento de
las URL's
Clase de
Sec.
Actividad
equivalencia Resultados
1
Almacenar las páginas
Validad
Mostrar la ruta de
visitadas
almacenamiento de las
URL's visitadas
TABLA 5: Caso de uso 5
Caso de uso
Caso de Prueba
Actor
Precondiciones
CU_05 Iniciar crawler
Cp_05 Iniciar crawler
Usuario
Visualizar la dirección de la página que se va a
explorar
Observa la ruta de almacenamiento
Visualizar el límite del crawler
Propósito
Iniciar la exploración en la pagina
escenarios
CP_05_E01: Iniciar la exploración de las pagina
Clase de
Sec.
Actividad
equivalencia
1
Inicializar la
Validad
exploración de la
página y extraer la
información de ella
TABLA 6: Caso de uso 6
134
Resultados
iniciar exploración
Caso de uso
Caso de Prueba
Actor
Precondiciones
CU_06 Observar que la pagina ya ha sido visitada
Cp_06 Observar que la pagina ya ha sido visitada
Usuario
Visualizar la dirección de la página que se va a
explorar
Observa la ruta de almacenamiento
Visualizar el límite del crawler
Propósito
ver resultado
escenarios
CP_06_E01: Iniciar la exploración de las pagina
Clase de
Sec.
Actividad
equivalencia
1
Observar que la
Validad
pagina ya ha sido
visitada y está lista
para visitar otra
pagina
Resultados
Mostrar de la página
fue explorada y su
información de ella
fue guardada
correctamente
Diagrama de actividades Crawler ONE TWO TREE
ILUSTRACION 7: Diagrama de actividades
Diagrama de clases Crawler ONE TWO TREE
135
ILUSTRACION 8: Diagrama de clases
Diseño del Crawler ONE TWO TREE
ILUSTRACION 9: Interfaz crawler ONE TWO TREE
Imágen sctript de primer nivel Crawler ONE TWO TREE
136
137
138
139
140
141
142
143
144
ILUSTRACION 10: Imágenes Script ONE TWO TREE
145
Script Crawler ONE TWO TREE
/*
* To change this license header, choose License Headers in Project Properties.
* To change this template file, choose Tools | Templates
* and open the template in the editor.
*/
package com.java.crawler.basdat;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.io.PrintWriter;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import javax.swing.JOptionPane;
import javax.swing.JTextArea;
import javax.swing.JTextField;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
*
* @author satrio
*/
public class BasdatCrawler extends javax.swing.JFrame {
private int LIMIT;
private ArrayList<String> listPageVisited;
private ArrayList<String> listPageToVisit; // lista de páginas que debe ser visitado
private ArrayList<String> listPreviousPageVisited;
private static final String USER_AGENT =
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko)
Chrome/13.0.782.112 Safari/535.1";
private ArrayList<String> links;
// arrayList para dar cabida a los resultados obtenidos enlaces
de rastreo
private Document htmlDocument;
int numb = 0;
146
/**
* Creates new form BasdatCrawler
*/
public BasdatCrawler() {
initComponents();
listPageVisited = new ArrayList<String>();
listPageToVisit = new ArrayList<String>();
listPreviousPageVisited = new ArrayList<String>();
links = new ArrayList<String>();
}
public void openFilePathDialog(JTextField textField){
chooser.setFileSelectionMode(chooser.FILES_AND_DIRECTORIES);
int returnval = chooser.showOpenDialog(BasdatCrawler.this);
if (returnval == chooser.APPROVE_OPTION){
File file = chooser.getSelectedFile();
try {
if (file.isFile()){
textField.setText(file.getParent().toString());
}else if (file.isDirectory()){
textField.setText(file.getAbsolutePath().toString());
}
} catch (Exception ee) {
JOptionPane.showMessageDialog(BasdatCrawler.this, "Choose Folder First");
}
}
}
public void outputConsole(JTextArea textArea, String message){
textArea.append(message);
}
/**
* This method is called from within the constructor to initialize the form.
* WARNING: Do NOT modify this code. The content of this method is always
* regenerated by the Form Editor.
*/
@SuppressWarnings("unchecked")
// <editor-fold defaultstate="collapsed" desc="Generated Code">
private void initComponents() {
chooser = new javax.swing.JFileChooser();
mainPane = new javax.swing.JPanel();
jPanel2 = new javax.swing.JPanel();
txtURL = new javax.swing.JTextField();
btnStartCrawl = new javax.swing.JButton();
147
jLabel2 = new javax.swing.JLabel();
jLabel3 = new javax.swing.JLabel();
txtFilePath = new javax.swing.JTextField();
btnFilePath = new javax.swing.JButton();
jLabel7 = new javax.swing.JLabel();
txtLimit = new javax.swing.JTextField();
jLabel4 = new javax.swing.JLabel();
btnDBUrlPath = new javax.swing.JButton();
txtDBUrlPath = new javax.swing.JTextField();
jPanel3 = new javax.swing.JPanel();
jScrollPane1 = new javax.swing.JScrollPane();
txtCrawlingProcess = new javax.swing.JTextArea();
jLabel5 = new javax.swing.JLabel();
jButton1 = new javax.swing.JButton();
setDefaultCloseOperation(javax.swing.WindowConstants.EXIT_ON_CLOSE);
mainPane.setBackground(new java.awt.Color(235, 134, 79));
jPanel2.setBackground(new java.awt.Color(202, 79, 0));
jPanel2.setForeground(new java.awt.Color(102, 102, 102));
txtURL.setText("http://");
txtURL.setToolTipText("include the protocol !");
btnStartCrawl.setText("Iniciar Crawler");
btnStartCrawl.addActionListener(new java.awt.event.ActionListener() {
public void actionPerformed(java.awt.event.ActionEvent evt) {
btnStartCrawlActionPerformed(evt);
}
});
jLabel2.setForeground(new java.awt.Color(255, 255, 255));
jLabel2.setText("Direccion Web *");
jLabel3.setForeground(new java.awt.Color(255, 255, 255));
jLabel3.setText("Guardar Resultado *");
txtFilePath.setEditable(false);
btnFilePath.setText("Ruta De Archivo");
btnFilePath.addActionListener(new java.awt.event.ActionListener() {
public void actionPerformed(java.awt.event.ActionEvent evt) {
btnFilePathActionPerformed(evt);
}
});
148
jLabel7.setForeground(new java.awt.Color(255, 255, 255));
jLabel7.setText("Limite de crawler *");
jLabel4.setForeground(new java.awt.Color(255, 255, 255));
jLabel4.setText("Datos Previos :");
btnDBUrlPath.setText("Ruta DB URL ");
btnDBUrlPath.addActionListener(new java.awt.event.ActionListener() {
public void actionPerformed(java.awt.event.ActionEvent evt) {
btnDBUrlPathActionPerformed(evt);
}
});
javax.swing.GroupLayout jPanel2Layout = new javax.swing.GroupLayout(jPanel2);
jPanel2.setLayout(jPanel2Layout);
jPanel2Layout.setHorizontalGroup(
jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(jPanel2Layout.createSequentialGroup()
.addContainerGap()
.addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addComponent(btnStartCrawl, javax.swing.GroupLayout.DEFAULT_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE)
.addGroup(jPanel2Layout.createSequentialGroup()
.addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addComponent(jLabel3)
.addComponent(jLabel7)
.addComponent(jLabel4)
.addComponent(jLabel2))
.addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED)
.addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(jPanel2Layout.createSequentialGroup()
.addComponent(btnDBUrlPath)
.addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED,
javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE)
.addComponent(txtDBUrlPath, javax.swing.GroupLayout.PREFERRED_SIZE,
1089, javax.swing.GroupLayout.PREFERRED_SIZE))
.addComponent(txtLimit)
.addGroup(jPanel2Layout.createSequentialGroup()
.addComponent(btnFilePath, javax.swing.GroupLayout.DEFAULT_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE)
.addGap(18, 18, 18)
.addComponent(txtFilePath, javax.swing.GroupLayout.PREFERRED_SIZE,
1089, javax.swing.GroupLayout.PREFERRED_SIZE))
.addComponent(txtURL, javax.swing.GroupLayout.Alignment.TRAILING))))
149
.addContainerGap())
);
jPanel2Layout.setVerticalGroup(
jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(jPanel2Layout.createSequentialGroup()
.addGap(3, 3, 3)
.addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE)
.addComponent(txtURL, javax.swing.GroupLayout.PREFERRED_SIZE, 25,
javax.swing.GroupLayout.PREFERRED_SIZE)
.addComponent(jLabel2))
.addGap(18, 18, 18)
.addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE)
.addComponent(jLabel3)
.addComponent(btnFilePath)
.addComponent(txtFilePath, javax.swing.GroupLayout.PREFERRED_SIZE, 25,
javax.swing.GroupLayout.PREFERRED_SIZE))
.addGap(18, 18, 18)
.addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE)
.addComponent(jLabel7)
.addComponent(txtLimit))
.addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.UNRELATED)
.addGroup(jPanel2Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.BASELINE)
.addComponent(jLabel4)
.addComponent(btnDBUrlPath)
.addComponent(txtDBUrlPath, javax.swing.GroupLayout.PREFERRED_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.PREFERRED_SIZE))
.addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED, 22,
Short.MAX_VALUE)
.addComponent(btnStartCrawl)
.addContainerGap())
);
jPanel3.setBackground(new java.awt.Color(203, 78, 0));
txtCrawlingProcess.setColumns(20);
txtCrawlingProcess.setRows(5);
jScrollPane1.setViewportView(txtCrawlingProcess);
jLabel5.setForeground(new java.awt.Color(255, 255, 255));
jLabel5.setText("Proceso Del Crawler");
javax.swing.GroupLayout jPanel3Layout = new javax.swing.GroupLayout(jPanel3);
jPanel3.setLayout(jPanel3Layout);
150
jPanel3Layout.setHorizontalGroup(
jPanel3Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(jPanel3Layout.createSequentialGroup()
.addContainerGap()
.addGroup(jPanel3Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(jPanel3Layout.createSequentialGroup()
.addComponent(jLabel5)
.addGap(0, 0, Short.MAX_VALUE))
.addComponent(jScrollPane1))
.addContainerGap())
);
jPanel3Layout.setVerticalGroup(
jPanel3Layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(javax.swing.GroupLayout.Alignment.TRAILING,
jPanel3Layout.createSequentialGroup()
.addContainerGap()
.addComponent(jLabel5)
.addPreferredGap(javax.swing.LayoutStyle.ComponentPlacement.RELATED)
.addComponent(jScrollPane1, javax.swing.GroupLayout.DEFAULT_SIZE, 239,
Short.MAX_VALUE)
.addContainerGap())
);
jButton1.setBackground(new java.awt.Color(51, 0, 204));
jButton1.setIcon(new javax.swing.ImageIcon("C:\\Users\\JohnMairon\\Google
Drive\\universida\\4 IST\\informe final\\ONE TWO TREE lOGO_editado-1.jpg")); // NOI18N
jButton1.setText("jButton1");
jButton1.addActionListener(new java.awt.event.ActionListener() {
public void actionPerformed(java.awt.event.ActionEvent evt) {
jButton1ActionPerformed(evt);
}
});
javax.swing.GroupLayout mainPaneLayout = new javax.swing.GroupLayout(mainPane);
mainPane.setLayout(mainPaneLayout);
mainPaneLayout.setHorizontalGroup(
mainPaneLayout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addComponent(jPanel3, javax.swing.GroupLayout.Alignment.TRAILING,
javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.DEFAULT_SIZE,
Short.MAX_VALUE)
.addGroup(mainPaneLayout.createSequentialGroup()
.addGroup(mainPaneLayout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(mainPaneLayout.createSequentialGroup()
.addGap(196, 196, 196)
151
.addComponent(jButton1, javax.swing.GroupLayout.PREFERRED_SIZE, 950,
javax.swing.GroupLayout.PREFERRED_SIZE))
.addGroup(mainPaneLayout.createSequentialGroup()
.addContainerGap()
.addComponent(jPanel2, javax.swing.GroupLayout.PREFERRED_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.PREFERRED_SIZE)))
.addContainerGap(18, Short.MAX_VALUE))
);
mainPaneLayout.setVerticalGroup(
mainPaneLayout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addGroup(mainPaneLayout.createSequentialGroup()
.addContainerGap()
.addComponent(jButton1, javax.swing.GroupLayout.PREFERRED_SIZE, 101,
javax.swing.GroupLayout.PREFERRED_SIZE)
.addGap(41, 41, 41)
.addComponent(jPanel2, javax.swing.GroupLayout.PREFERRED_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, javax.swing.GroupLayout.PREFERRED_SIZE)
.addGap(18, 18, 18)
.addComponent(jPanel3, javax.swing.GroupLayout.DEFAULT_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE)
.addContainerGap())
);
javax.swing.GroupLayout layout = new javax.swing.GroupLayout(getContentPane());
getContentPane().setLayout(layout);
layout.setHorizontalGroup(
layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addComponent(mainPane, javax.swing.GroupLayout.DEFAULT_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE)
);
layout.setVerticalGroup(
layout.createParallelGroup(javax.swing.GroupLayout.Alignment.LEADING)
.addComponent(mainPane, javax.swing.GroupLayout.DEFAULT_SIZE,
javax.swing.GroupLayout.DEFAULT_SIZE, Short.MAX_VALUE)
);
pack();
}// </editor-fold>
private void btnDBUrlPathActionPerformed(java.awt.event.ActionEvent evt) {
// DB URL cuando ya ha sido visitado , este conjunto
chooser.setFileSelectionMode(chooser.FILES_ONLY);
int returnval = chooser.showOpenDialog(BasdatCrawler.this);
if (returnval == chooser.APPROVE_OPTION){
File file = chooser.getSelectedFile();
try {
if (file.isFile()){
152
txtDBUrlPath.setText(file.getAbsolutePath().toString());
}
} catch (Exception ee) {
JOptionPane.showMessageDialog(BasdatCrawler.this, "Choose File First");
}
}
}
private void btnFilePathActionPerformed(java.awt.event.ActionEvent evt) {
// obtener una carpeta para almacenar los resultados de rastreo
this.openFilePathDialog(txtFilePath);
}
private void btnStartCrawlActionPerformed(java.awt.event.ActionEvent evt) {
System.out.println("starting crawl");
// Se inciializa la lista de trabajo, la DB de urls y las URL's ya procesadas
listPageToVisit.clear();
listPageVisited.clear();
listPreviousPageVisited.clear();
System.out.println("Check 1");
// Revisndo la entrada del usuario
if (!"".equals(txtURL.getText()) && !"".equals(txtFilePath.getText()) &&
!"".equals(txtLimit.getText())) {
// Se extraen URL's si se entregaron mediante archivo
System.out.println("Check 2");
if(!"".equals(txtDBUrlPath.getText())){
// leer el archivo por línea
System.out.println("Check 3");
BufferedReader br = null;
try {
String sCurrentLine;
br = new BufferedReader(new FileReader(txtDBUrlPath.getText()));
while ((sCurrentLine = br.readLine()) != null) {
System.out.println("CurrentLine: " + sCurrentLine);
// Se añade la URL a la lista de trabajo
listPreviousPageVisited.add(sCurrentLine);
}
} catch (IOException e) {
153
e.printStackTrace();
} finally {
try {
if (br != null)br.close();
} catch (IOException ex) {
ex.printStackTrace();
}
}
}
else{
listPreviousPageVisited.clear();
System.out.println("Check 4");
}
System.out.println("Check 5");
System.err.println(listPreviousPageVisited.size()+" size listPrevious");
// Se extrae la URL y la ruta destino del GUI
String url = txtURL.getText();
String filePath = txtFilePath.getText();
// Se asigna y extrae el liite del crawler del GUI
int limit = 10; // conjunto límite predeterminado
try {
limit = Integer.parseInt(txtLimit.getText());
System.out.println("Check try");
} catch (Exception e) {
System.out.println("Check try-catch");
JOptionPane.showMessageDialog(BasdatCrawler.this, "Input limitnya angka!", "ERROR",
JOptionPane.ERROR_MESSAGE);
}
System.out.println("Check 6");
System.out.println("Check URLS:\n" + url);
// establecer la dirección URL raíz a arrastrarse
// Se inicializa el arbol de expansion añadiendo el primer elemento
listPageToVisit.add(url);
// Se asigna el limite
LIMIT = limit;
// INicio del crawling
// Se procesan sitios mientras no excedamos el limite de procesamiento
while(this.listPageVisited.size() < LIMIT){
String currentUrl;
// Se toma la unica URL que hay
154
if(listPageToVisit.size()==1){ // tanda root akan dicrawl
currentUrl = listPageToVisit.remove(0);
System.out.println("current url to crawl = " + currentUrl+"\n");
}
// Se toma la URL que hay, teniendo en cuenta que quedan mas por procesar
else if(listPageToVisit.size() > 0 && listPageToVisit.size()!=1){
currentUrl = this.getNextUrl();
System.out.println("current url to crawl = " + currentUrl+"\n");
}
else{
break;
}
// Se laza el crawler para dicha URL
this.crawl(currentUrl, filePath);
// Se archiva la URL como visitada
this.listPageVisited.add(currentUrl);
// Se añaden los links encontrados del proceso de crawling
if(listPageToVisit.size() < 1000000000)
listPageToVisit.addAll(links);
for(String s : this.listPageVisited) {
System.out.println(s + " sudah dicrawl, yeah !");
}
}
// Se genera el archivo donde se van a poner las URL's encontradas
try {
File file = new File(txtFilePath.getText()+"/dbUrl.txt");
// Si no existe el archivo , y luego crearlo
if (!file.exists()) {
file.createNewFile();
}
// Se crea el fichero y se ponen todas las URL's visitadas
FileWriter fw = new FileWriter(file.getAbsoluteFile());
BufferedWriter bw = new BufferedWriter(fw);
for(String s : this.listPageVisited) {
bw.write(s+"\n");
}
bw.close();
System.out.println("Done Save list URL to file");
} catch (IOException e) {
e.printStackTrace();
155
}
// Se notifica de cuantas URL's fueron visitadas
System.out.println("\n**Done** Visited " + this.listPageVisited.size() + " web page(s)");
outputConsole(txtCrawlingProcess, "\n**Done** Visited " + this.listPageVisited.size() + " web
page(s)");
}
else{
JOptionPane.showMessageDialog(BasdatCrawler.this, "Lengkapi inputan",
"ERROR", JOptionPane.ERROR_MESSAGE);
}
}
private void jButton1ActionPerformed(java.awt.event.ActionEvent evt) {
// TODO add your handling code here:
}
private String getNextUrl() {
String nextUrl;
if(listPreviousPageVisited.size()==0){
do {
nextUrl = this.listPageToVisit.remove(0);
} while(listPageVisited.contains(nextUrl));
}
else{
do {
nextUrl = this.listPageToVisit.remove(0);
} while(listPageVisited.contains(nextUrl) || listPreviousPageVisited.contains(nextUrl) );
}
return nextUrl; // volver a los enlaces no visitados
}
// Obtiene una imagen a partir de una URL y la pone en una ruta determinada
public void getImages(String src, String folderImagePath) throws IOException {
int indexname = src.lastIndexOf("/");
if (indexname == src.length()) {
src = src.substring(1, indexname);
}
indexname = src.lastIndexOf("/");
String name = src.substring(indexname, src.length());
URL url = new URL(src);
InputStream in = url.openStream();
156
OutputStream out = new BufferedOutputStream(new FileOutputStream(folderImagePath+"/"+
name));
for (int b; (b = in.read()) != -1;) {
out.write(b);
}
out.close();
in.close();
}
// Obtiene un fichero de una URL determinada y la pone en una ruta
private void getFile(String absUrl, String folderFilePath) {
// encontrar el enlace
int indexname = absUrl.lastIndexOf("/");
if (indexname == absUrl.length()) {
absUrl = absUrl.substring(1, indexname);
}
indexname = absUrl.lastIndexOf("/");
String name = absUrl.substring(indexname+1, absUrl.length());
// Filtro proceso, si el nombre contiene .doc .docx .pdf .txt se guardarán
if( name.contains(".pdf") || name.contains(".doc")
|| name.contains(".docx") || name.contains(".txt")) {
URL url;
try {
// abrir el enlace para descargar el archivo
url = new URL(absUrl);
System.out.println("url file = "+url);
InputStream in = url.openStream();
//el proceso de guardar el archivo en disco
OutputStream out = new BufferedOutputStream(
new FileOutputStream(folderFilePath + "/" + name));
for (int b; (b = in.read()) != -1;) {
out.write(b);
}
out.close();
in.close();
System.out.println("success save file to device!");
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
157
}
}
public void crawl(String url, String folderFilePath) {
try {
// Nos conectamos al servidor de la URL
Connection connection = Jsoup.connect(url);
// Se descarga el html
Document htmlDocument = connection.get();
this.htmlDocument = htmlDocument;
File NewFolder = null;
// Si el documento se obtuvo correctamente
if(connection.response().statusCode() == 200) {
System.out.println("**Visiting"+numb+" ** Received web page at " + url);
// Se genera el archivo de URL's
NewFolder = new File(""+folderFilePath+"/"+numb);
NewFolder.mkdir();
PrintWriter pw = new PrintWriter(NewFolder.getAbsolutePath()+"/html"+numb+".txt");
String data = htmlDocument.html();
pw.println("Obteniendo enlaces:");
// Si se encuentra la expresion "http: se lee hasta encontra otro "
for(int k = 0; k < data.length()-5; k++){
if("\"http".equals(data.substring(k, k+5))){
int kl;
for(kl = k+1; data.charAt(kl) != '\"'; kl++){}
pw.println(data.substring(k+1, kl));
k=kl+1 ;
}
}
pw.println("Fin de los enlaces");
pw.close();
}
else{
System.err.println("terjadi error !");
}
// Si no se pudo obtener
if(!connection.response().contentType().contains("text/html")) {
System.out.println("**Failure** Retrieved something other than HTML");
outputConsole(txtCrawlingProcess, "**Failure** Retrieved something other than HTML");
}
158
// Se capturan todos los enlaces de etiqueta <a href ...>
Elements linksOnPage = htmlDocument.select("a[href]");
System.out.println("Found (" + linksOnPage.size() + ") links");
// Se itera sobre todos los enlaces
for(Element link : linksOnPage) {
// Se almacenan las URL's teniendo cuidado de no tomar js, consultas, etc...
if(link.absUrl("href").contains("merdeka.com") && (!link.absUrl("href").contains("#"))
&& (!link.absUrl("href").contains("?")) && (link.absUrl("href").contains(".html"))
&& (!link.absUrl("href").contains("{")) && (!link.absUrl("href").contains("}"))){
this.links.add(link.absUrl("href"));
}
// Si el enlace hace referencia a un archivo, se descarga
if(link.absUrl("href").lastIndexOf("/")!=link.absUrl("href").length()){
// el proceso de descarga de archivos , guardar en un dispositivo de carpeta
getFile(link.absUrl("href"), NewFolder.getAbsolutePath());
}
}
// Se procede a otener todos los tags <img> del documento html
Elements img = htmlDocument.getElementsByTag("img");
// Se itera sobre todos los tags para descagarlos
for (Element el : img) {
// Se extrae la fuente
String src = el.absUrl("src");
if(src.length()<255)
// Se descarga desde la fuente
getImages(src,NewFolder.getAbsolutePath());
}
// Se incrementa el contador para la siguiente iteracion, y numerar las carpetas
numb++;
}
catch(IOException ioe) {
System.err.println(ioe.getMessage());
}
}
/**
* @param args the command line arguments
*/
public static void main(String args[]) {
/* Set the Nimbus look and feel */
159
//<editor-fold defaultstate="collapsed" desc=" Look and feel setting code (optional) ">
/* If Nimbus (introduced in Java SE 6) is not available, stay with the default look and feel.
* For details see http://download.oracle.com/javase/tutorial/uiswing/lookandfeel/plaf.html
*/
try {
for (javax.swing.UIManager.LookAndFeelInfo info :
javax.swing.UIManager.getInstalledLookAndFeels()) {
if ("Nimbus".equals(info.getName())) {
javax.swing.UIManager.setLookAndFeel(info.getClassName());
break;
}
}
} catch (ClassNotFoundException ex) {
java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV
ERE, null, ex);
} catch (InstantiationException ex) {
java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV
ERE, null, ex);
} catch (IllegalAccessException ex) {
java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV
ERE, null, ex);
} catch (javax.swing.UnsupportedLookAndFeelException ex) {
java.util.logging.Logger.getLogger(BasdatCrawler.class.getName()).log(java.util.logging.Level.SEV
ERE, null, ex);
}
//</editor-fold>
/* Create and display the form */
java.awt.EventQueue.invokeLater(new Runnable() {
public void run() {
new BasdatCrawler().setVisible(true);
}
});
}
// Variables declaration - do not modify
private javax.swing.JButton btnDBUrlPath;
private javax.swing.JButton btnFilePath;
private javax.swing.JButton btnStartCrawl;
private javax.swing.JFileChooser chooser;
private javax.swing.JButton jButton1;
private javax.swing.JLabel jLabel2;
private javax.swing.JLabel jLabel3;
160
private javax.swing.JLabel jLabel4;
private javax.swing.JLabel jLabel5;
private javax.swing.JLabel jLabel7;
private javax.swing.JPanel jPanel2;
private javax.swing.JPanel jPanel3;
private javax.swing.JScrollPane jScrollPane1;
private javax.swing.JPanel mainPane;
private javax.swing.JTextArea txtCrawlingProcess;
private javax.swing.JTextField txtDBUrlPath;
private javax.swing.JTextField txtFilePath;
private javax.swing.JTextField txtLimit;
private javax.swing.JTextField txtURL;
// End of variables declaration
}
Plan maestro de pruebas - ONE TWO TREE
TABLA 11: Historial de versiones
Fecha
13/05/201
6
Versión
1
Autor
Edison Moreno Capera
John Mairon Román
Grajales
Organización
One Two Tree
Descripción
Se realiza plan
maestro de pruebas
al crawler
TABLA 12: Información del proyecto
Empresa / Organización
Proyecto
Fecha de preparación
Cliente
Patrocinador principal
Fundación One Two Tree
One Two Tree
13/05/2016
Armando Sánchez Nieto
Edison Moreno Capera, John Mairon Román
Grajales
Andrés Mauricio Martínez Hincapié
Gerente / Líder de
Proyecto
Gerente / Líder de Pruebas Edison Moreno Capera, John Mairon Román
de Software
Grajales
161
TABLA 13: Prueba T01
Dirección web
(texto)
Nombre:
Identificador:
T01
valor máximo
Valor mínimo
Resultados esperados:
Se captura la dirección web
Resultados obtenidos :
Se almaceno la dirección web
Estado:
Funciona: SI
No Funciona:
Descripción
El usuario debe ingresar la URL de la página que va hacer
visitada por el crawler
TABLA 14: Prueba T02
Nombre:
Valor
máximo
Ruta de
archivos
(btnFile)
Identificador: T02
Valor
mínimo
Poder crear carpeta de donde se va almacenar
Resultados esperados:
toda la información escaneada
Resultados obtenidos :
Se almaceno la información escaneada
Estado:
Funciona: SI
No Funciona:
Descripción El usuario debe ingresar la ruta de almacenamiento donde de se va
guardar la información que va hacer extraída de la página, también
tiene la opción de crear una carpeta nueva. Y también se le puede
dar ubicación a esta carpeta
162
TABLA 15: Prueba T03
Nombre:
Limite del crawler (textbox) Identificador: T03
Valor
mínimo
Valor máximo
Resultados
esperados:
ingresar el límite de
profundidad de crawler
Puede asignar el límite de
profundidad al crawler para
que pueda explorar la
pagina
Resultados obtenidos :
Estado:
Descripción:
Funciona: SI
No Funciona:
El usuario ingresara el número límite del crawler. Dando
la profundidad de exploración de la pagina
TABLA 16: Prueba T04
Nombre:
Valor máximo
Ruta DB URL
(btnDbUrl)
Identificador: T04
Resultados esperados:
Valor mínimo
Darle la ruta para almacenar las URL que se han
ido visitando
Resultados obtenidos :
Se pudo dar la ruta para almacenar las URL
Estado:
Descripción:
Funciona: SI
No Funciona:
El usuario ingresara la ruta de almacenamiento de URL's para ser
almacenadas en el computador. así se guardara las rutas de las
pagina visitadas
163
TABLA 17: Prueba T05
Nombre: Iniciar Crawler
(btnStartCrawl)
Identificador: T05
Valor máximo
Valor mínimo
Resultados esperados:
Iniciar el crawler y empezar a explorar la pagina
Resultados obtenidos :
inicia a explorar la pagina
Estado:
Descripción:
Funciona: SI
No Funciona:
El usuario le dará inicio al crawler y iniciara la exploración de la página y
empezara a guardar la información extraída de la página en el
computador.
20.
ANEXO I: Conclusiones
El proyecto ha sido desarrollado con la intención de minimizar procesos para la
fundación ONE TWO TREE. Realizando una investigación teniendo en cuenta,
aspectos para escoger un buen gestor documental, interactuando con cada uno de
los gestores (ALFRESCO, NUXEO, OPENKM, ORFEO), evidenciando una
experiencia con cada uno de ellos y se deja en entrevisto de una forma gráfica, la
interacción desde el comienzo que se descarga, hasta su instalación, al terminar
esta experiencia se define el gestor OPENKM, que se implanta en la fundación
ONE TWO TREE.
Se realiza el análisis y se identifica los diferentes tipos y técnicas que hay de
construcción de robots de navegación al diseñar e implementar el crawler (robot
de navegación), realizando pruebas y ensayos permitiendo detectar posibles
fallos, se evidencia los resultados del crawler .
164
21.
ANEXO J: Recomendaciones
Dentro de un proyecto realizado, siempre se desea que haya una mejora continua
del mismo; por lo tanto se deja disponible a futuros estudiantes que tengan interés
en el proyecto, se considera interesante investigar otros aspectos relacionados a
los gestores de archivos y administración de la información.
 Extender la investigación orientada a los arboles binarios para identificar la
profundidad y los niveles de búsqueda del sitio web.
 Formas de almacenamiento en la gestión de archivos.
22.
ANEXO K: Bibliografía
Athento . (s.f.). Document Management. Recuperado el 13 de 05 de 2015, de
http://www.athento.com/gestion-documental-inteligente/
CIGEM CONSULTORES S.A.S. (01 de 01 de 2003). CIGEM CONSULTORES
S.A.S. Recuperado el 13 de 05 de 2015, de http://cigemconsultores.com/site/
codina, L. (01 de 05 de 1993). Revista internacional cientifica y profesional .
Recuperado el 15 de 05 de 2015, de Qué es un sistema de gestión documental:
http://www.elprofesionaldelainformacion.com/contenidos/1993/mayo/qu_es_un_sis
tema_de_gestin_documental.html
García, N. H. (24 de 10 de 2011). Vicios y mal uso del internet y la tecnología.
Recuperado el 13 de 05 de 2015, de http://www.gerencie.com/vicios-y-mal-usodel-internet-y-la-tecnologia.html
Gonzales, I. R. (05 de 02 de 2002). Monografias : Motores de Busqueda.
Recuperado
el
13
de
05
de
2015,
de
http://www.geocities.ws/motoresdebusqueda/inicio.html
Google Support . (2015). Google crawlers. Recuperado el 13 de 05 de 2015, de
https://support.google.com/webmasters/answer/1061943?hl=en
165
Lamarca Lapuente, M. J. (s.f.). Robots y agentes . Recuperado el 13 de 05 de
2015, de http://www.hipertexto.info/documentos/robot_agent.htm
OpenKM. (01 de 01 de 2004). OpenKM. Recuperado el 13 de 05 de 2015, de
http://www.openkm.com/es/
Orfeo . (01 de 01 de 2007). Orfeo - Sistema de Gestión Documental. Recuperado
el 13 de 05 de 2015, de http://www.orfeolibre.org/inicio/index.php/desarrollo.html
Snappdoc.
(s.f.).
Snappdoc.
Recuperado
el
13
de
05
de
2015,
de
http://www.snappdoc.com/
Stark, N. S. (10 de 11 de 2001). MOTORES DE BÚSQUEDA EN INTERNET.
Recuperado el 05 de 05 de 2015, de MOTORES DE BÚSQUEDA EN INTERNET:
http://www.unlu.edu.ar/~tyr/tyr/TYR-motor/stark-motor.pdf
UniversitatPolitecnica de Valencia . (s.f.). Recuperacion de Informacion de la Web
. Recuperado el 13 de 05 de 2015, de http://personales.upv.es/ccarrasc/doc/20022003/RIW/AGENTS-SRP.htm
Wikipedia. (19 de 03 de 2015). GestionDocumental . Recuperado el 13 de 05 de
2015, de http://es.wikipedia.org/wiki/Gesti%C3%B3n_documental
Yahoo.
(2015).
Slurp.
Recuperado
el
13
de
05
de
2015,
de
https://help.yahoo.com/kb/search/slurp-crawling-page-sln22600.html
ARCHIVO GENERAL DE LA NACIÓN DE COLOMBIA. Acuerdo No. 047 de 2000,
Por el cual se desarrolla el artículo 43 del Capítulo V “Acceso a los Documentos
de Archivo”, del AGN del Reglamento General de Archivos sobre “Restricciones
por razones de conservación
Acuerdo 049 de 2000. Por el cual se desarrolla el artículo del Capítulo 7
“Conservación de Documentos” del Reglamento General de Archivos sobre
“condiciones de edificios y locales destinados a archivos”.
166
Acuerdo 056 de 2000. Por el cual se desarrolla el artículo 45, “Requisitos para la
Consulta”delcapitulo V, “Acceso a los documentos de archivo”, del reglamento
general de archivos.
Acuerdo No. 060 de 2001. Por el cual se establecen pautas para la administración
de las comunicaciones oficiales en las entidades públicas y las privadas que
cumplen funciones públicas
Acuerdo No. 039 de 2002. Por el cual se regula el procedimiento para la
elaboración y aplicación de las Tablas de Retención Documental en desarrollo del
Articulo 24 de la
Acuerdo No. 042. Por el cual se establecen los criterios para la organización de los
archivos de gestión en las entidades públicas y las privadas que cumplen
funciones públicas, se regula el Inventario Único Documental y se desarrollael
artículo 21, 22, 23 y 26
Acuerdo No. 02 de 2004. Por el cual se establecen los lineamientos básicos para
la organización de fondos acumulados.
ván Camargo Sarmiento, U. D. (06 de 12 de 2013). EVOLUCIÓN Y TENDENCIAS
ACTUALES DE LOS WEB CRAWLERS. Recuperado el 15 de 04 de 2016, de
http://revistas.udistrital.edu.co/ojs/index.php/reving/article/view/5084/6703
manz. (11 de 08 de 2007). Robots.txt : Todo lo que deberia saber. Recuperado el
18 de 04 de 2016, de http://www.emezeta.com/articulos/robots-txt-todo-lo-quedeberia-saber
167
Descargar