Subido por Joaquin Anduano

Propuesta Biblioteca Nacional(2)

Anuncio
Trascripción de Manuscritos de José
Enrique Rodó - Biblioteca Nacional
Propuesta comercial
IDATHA - 2021
Alcance
El objetivo de este proyecto es validar si es posible construir un modelo de Inteligencia
Artificial basado en Computer Vision, que permita facilitar el proceso de transcripción a
editor de texto de los manuscritos de José Enrique Rodó, previamente digitalizados por
el equipo de la Biblioteca Nacional.
El modelo va a ser entrenado y evaluado sobre el conjunto de datos previamente
transcripto por los expertos; al que llamaremos Corpus. Este conjunto deberá ser divido
en dos partes, una primera que se utilizará para el entrenamiento y ajuste del modelo,
así como también la extracción y validación de métricas de performance; y una segunda
parte que se utilizará para validación de éste de manera de poder garantizar una mejor
calidad del mismo. El tamaño de estas muestras de entrenamiento y validación será
definido durante el proyecto.
Entregables
● El código del modelo entrenado con python
● Documentación de las métricas referentes a los resultados que se obtuvieron
durante el proceso de entrenamiento y validación
Desarrollo
El desarrollo de la prueba de concepto se realizará en varias etapas que listamos a
continuación
● Setup del ambiente necesario (Condas, OpenCV, Keras, TensorFlow, Python,
etc...).
● Prepración del conjunto de datos
○ Estructuración de los archivos del corpus para poder procesarlo con las
bibliotecas correspondientes.
○ Determinación de la proporción de muestra para train y test.
● Entrenamiento (una o varias iteraciones)
○ Diseño de las diferentes arquitecturas de red neuronal a utilizar
○ Pruebas de preprocesamiento de las imágenes
■ Cambio del esquema de colores, alineación, redimensionamiento,
etc...
○ Pruebas de detección y reconocimiento de las palabras con las técnicas
de OCR
○ Entrenamiento y ajuste de la red
○ Fine Tunning
○ Extracción de las métricas
● Contraste de las métricas contra el conjunto de validación
● Documentación e Informes de resultados
Requisitos previos
Disponiblización de parte del equipo de Biblioteca Nacional del Corpus para la realización
del entrenamiento.
Por Corpus entendemos los archivos de los manuscritos digitalizados con su
correspondiente transcripción.
Estimación del Esfuerzo
El esfuerzo que estimamos para esta prueba de concepto consiste en 80 horas
distribuidas entre las diferentes etapas del desarrollo del modelo y la documentación
asociada.
Inversión y condiciones comerciales
La inversión para la ejecución de la prueba de concepto descripta en este documento es de
$ 200.000 IVA incluído (doscientos mil pesos) distribuida de la siguiente manera:
-
$100.000 IVA incuido (cien mil pesos) de desarrollo de software
$100.000 IVA incluido (cien mil pesos) investigación y documentación asociada (mano
de obra)
•
La facturación será efectuada una vez entregados los resultados de la prueba de
concepto
Los trabajos serán iniciados contra recibo de la respectiva orden de compra
El monto incluye impuestos
•
•
Descargar