EL MINISTERIO DE INDUSTRIA SUBVENCIONA UN PROYECTO LIDERADO POR IPSA PARA LA INVESTIGACIÓN EN TECNOLOGÍAS DE RECONOCIMIENTO DE DOCUMENTOS
Comunicado de Prensa
Madrid, septiembre de 2004
Extracción de Datos de Documentos con Estructura No Normalizada (EDDENN) es el nuevo proyecto que el Ministerio de Industria ha subvencionado al consorcio formado por IPSA y Daedalus
- El proyecto, de 2 años de duración, se enmarca dentro del nuevo Programa Nacional de Tecnologías de Servicios de la Sociedad de la Información y se basa en la configuración automática del reconocimiento y clasificación de documentos semiestructurados y no estructurados.
- IPSA, compañía especializada en tecnología de tratamiento de imagen y reconocimiento de datos, y DAEDALUS, empresa especializada en tecnología lingüística, aportarán al consorcio conocimientos y experiencia en sus respectivas áreas tecnológicas.
IPSA, compañía española especializada en el desarrollo de software para el tratamiento masivo de documentación mediante tecnología de imágenes, lidera un proyecto que ha sido subvencionado por el Ministerio de Industria, dentro del área de Tecnologías de la Sociedad de la Información (TSI), para el desarrollo del proyecto de investigación EDDENN.
En los últimos tiempos se ha demostrado el éxito de los sistemas que extraen información fiable de modo automático mediante la aplicación de una combinación de técnicas como digitalización del documento, reconocimiento automático y captura asistida mediante videograbación. Hasta ahora, estos sistemas se han centrado en el tratamiento de documentos estructurados (como los formularios) o de documentos semiestructurados (como documentos de pago: letras, recibos, cheques…). No obstante, los buenos resultados obtenidos en estos ámbitos anima a las entidades que procesan grandes volúmenes de documentos a interesarse por la aplicación de estas técnicas en documentos más complejos y no estructurados como facturas, albaranes, órdenes de operación a entidades bancarias, documentos heterogéneos que forman parte de expedientes, etc.
El Ministerio de Industria a través de su área TSI, ha confiado en IPSA para emprender este proyecto que profundiza en el tratamiento del ámbito de los documentos semiestructurados y no estructurados. Esta incursión se fortalece con la cooperación de DAEDALUS, compañía experta en tecnología lingüística, que con este proyecto se adentra en la problemática del tratamiento de textos procedentes de sistemas automáticos de reconocimiento.
Breve descripción del proyecto
Hasta ahora, los procesos de personalización de soluciones para clientes pasan por configurar los sistemas mediante la definición manual de una plantilla para cada tipo de documento que el sistema deba procesar. Pero, en ocasiones, el número de tipos de documentos a tratar es muy amplio, como ocurre en el caso de ciertos documentos semiestructurados (facturas en las que cada proveedor tiene su modelo), por lo que el proceso de definición manual de plantillas resulta largo y costoso. Peor es el caso de los documentos no estructurados en absoluto, aquellos que no se ajustan a ningún tipo predeterminado, y sobre los que es imposible definir plantilla alguna. Así, el proyecto EDDENN, aborda dos líneas de trabajo:
Una primera línea de trabajo se centra en el desarrollo de una tecnología que permita el diseño y configuración automática de plantillas de reconocimiento sobre tipos de documentos desconocidos, en los que se presupone que existe cierta información. El sistema detectará nuevos tipos o formatos de documentos, y concretará la estructura de un documento desconocido de manera automática. Además, la tecnología que se desarrolle, será capaz de «aprender» apoyada en la experiencia que va adquiriendo durante su vida operativa.
En la segunda línea de trabajo se acomete el desarrollo de la tecnología necesaria para extraer de manera automática datos relevantes contenidos en grandes volúmenes de imágenes de documentos no estructurados. Ello supone detectar, reconocer y validar de manera automática datos como nombres, matrículas, direcciones postales, cuentas bancarias…
Sobre IPSA: Investigación y Programas, S.A. (IPSA) es una empresa española que desarrolla tecnología y soluciones software para gestionar el contenido de una organización (ECM) y automatizar los procesos de negocio vinculados a la documentación (física y electrónica). Con una experiencia contrastada en varios sectores como Administraciones Públicas, Seguros, Banca y Finanzas y Salud, entre otros, en la actualidad IPSA tiene representación, además de en España, en los principales países latinoamericanos. Para más información: http://www.ipsa.es
Sobre DAEDALUS: Compañía con amplia experiencia en el desarrollo de herramientas software, para el tratamiento del contenido textual de documentos en formato electrónico. DAEDALUS dispone de productos para la revisión ortográfica, gramatical y de estilo, como STILUS®. El importante know how de la empresa en el área del procesamiento del lenguaje natural y en la gestión del conocimiento, ha permitido desarrollar herramientas específicas para la gestión del conocimiento en organizaciones, las cuales facilitan la gestión documental y las funcionalidades dirigidas a la captura del conocimiento de la organización.
Está a tu entera disposición el contenido y alcance íntegro del proyecto, por si deseas ampliar la información.
Para más información:
Recursos de Mercado
Tfno.: 91 547 08 04 / 652 09 78 74