Repositorio estático OAI ::

Hace poco un grupo de editores se puso en contacto con Soybits interesándose por el desarrollo de un repositorio OAI. Este artículo resume la investigación que hemos llevado a cabo para implementar una solución.

La iniciativa OAI

La OAI (Open Archives Initiative) se creó en 1999 para responder a la necesidad de estandarizar los repositorios de artículos científicos y académicos (los llamados eprints) que por entonces empezaban a proliferar, con el fin de desarrollar y promover estándares de interoperabilidad entre los mismos.

Esto se consiguió con el protocolo OAI-PMH para la recolección de metadatos, que se ha consolidado sobre todo en el campo de las publicaciones científicas y académicas y en bibliotecas: su utilización en el ámbito de la edición comercial ha sido prácticamente nula hasta ahora.

Sin embargo, la evolución del protocolo —que desde el 2002 abandona su enfoque en los eprints para centrarse en “recursos” de tipo más general, abriendo así el acceso a una gama más amplia de materiales no necesariamente digitales— y los cambios que viene experimentando la industria editorial permitirían utilizarlo también para aplicaciones en este sector.

Evolución del protocolo OAI-PMH

OAI-PMH
(En rojo las variaciones de una versión a otra.)

Proveedores de datos y proveedores de servicios

En esencia la visión de la OAI divide el campo en dos sectores: los proveedores de datos y los proveedores de servicios.

Los proveedores de datos crean un repositorio accesible en la red con los recursos que se quieren publicar y exponen los metadatos de dichos recursos para que sean “recolectados” por los proveedores de servicios; los proveedores de servicios “cosechan” estos metadatos y los utilizan para ofrecer un servicio de valor añadido, por ejemplo una interfaz de búsqueda tipo BASE o Google Scholar Search.

Es decir, tenemos “repositorios” o almacenes de metadatos y tenemos “recolectores” que recopilan la información de los repositorios para ofrecer distintos servicios a partir de la misma. Técnicamente, todo el funcionamiento del sistema se basa en HTTP, XML y los metadatos Dublin Core sin cualificar (ISO-15836).

Por dónde empezar

Existen varias soluciones de código abierto que permiten construir un repositorio OAI, y entre ellas nos pareció especialmente interesante la de EPrints.

Sin embargo, en seguida nos resultó evidente que la implementación de una solución de este tipo no es en absoluto trivial y que, en el sector editorial, los beneficios difícilmente justifican el coste y el esfuerzo.

Por suerte, la propia OAI ha reconocido el problema y creado una solución que lo simplifica en gran medida: los repositorios OAI estáticos.

Repositorios OAI estáticos

Un repositorio OAI estático es una solución relativamente “sencilla” que resulta adecuada para divulgar mediante OAI-PMH colecciones de artículos, documentos u otros recursos (en nuestro caso, libros) no demasiado grandes y que no se actualicen con excesiva frecuencia (por ejemplo, una vez al mes).

En concreto, el enfoque está pensado para organizaciones que

  • tienen colecciones de metadatos que no superan un máximo de 5.000 registros;
  • pueden hacer accesible un contenido estático desde un servidor web accesible por Internet, y
  • necesitan una implementación técnicamente más sencilla que un repositorio OAI-PMH.

Desde esta perspectiva, la solución implica, por una parte, crear el repositorio estático (XML) que recoja los metadatos Dublin Core del catálogo de cada editorial y, por otra, registrarlo en un servicio de pasarela que ponga esta información al alcance de los “recolectores” de metadatos OAI-PMH.

El repositorio

El repositorio en sí consiste en un simple fichero XML que contiene la información de metadatos y que se aloja en un servidor normal y corriente, por ejemplo el propio servidor web de la editorial.

La creación y la posterior actualización del repositorio estático puede resolverse convirtiendo al formato XML adecuado la información pertinente del catálogo editorial presentada en cualquier formato estructurado (por ejemplo, una base de datos Access).

Como es lógico, este fichero XML debe validar según un XML schema determinado, publicado por la OAI, que puede encontrarse aquí.

Una vez obtenido un fichero XML válido que cumpla las especificaciones, se coloca en un servidor web (que funciona según el protocolo HTTP) y, para que resulte accesible a los “recolectores” (o harvesters), se registra o “se da de alta” en una pasarela de repositorio estático (Static Repository Gateway) diseñada específicamente para ofrecer este servicio desde una URL persistente.

Repositorio estático OAI-PMH

Una vez registrado en una pasarela, cualquier cambio en el contenido del repositorio es detectado automáticamente por la pasarela.

La pasarela de repositorio estático

Una serie de búsquedas no nos permitió encontrar ninguna pasarela de este tipo que resultara adecuada para las necesidades del caso (no digo que no exista alguna, sólo que no la encontramos).

Sin embargo, es evidente que para la aplicación en gran escala del sistema de repositorios estáticos se necesita una pasarela permanente a disposición de los editores, de manera que nuestro siguiente paso consistió en instalar una pasarela propia conforme a las especificaciones de la OAI.

Como en el caso anterior, encontramos algunas soluciones de código abierto para la implementación de una pasarela de repositorio estático OAI-PMH, entre las cuales destacamos las de srepod desarrollada por Patrick Hochstenbach y Henry Jerez, del Los Alamos National Laboratory y la del UIUC OAI Metadata Harvesting Project desarrollado en la Universidad de Illinois.

Nuestra elección se decantó finalmente por el software de srepod, disponible en Sourceforge porque está basada en PHP mientras que la de UIUC está desarrollada con VisualBasic y Java.

Por otra parte, desde el punto de vista de la documentación el software de “srepod” tiene una baza importante en el proyecto Stargate, que documenta con bastante detalle la instalación y utilización del sistema.

Una condición que debe tenerse en cuenta antes de empezar es que la instalación de “srepod” exige acceso de root, lo que en principio excluye la posibilidad de montar una pasarela en un servidor compartido.

Aparte de este detalle, creemos que el software y la documentación accesibles desde los enlaces de este artículo permiten que cualquiera con los conocimientos técnicos necesarios pueda instalar una pasarela de repositorio estático, y si alguien se anima a hacerlo nos gustaría saber cuál es su experiencia.

Por nuestra parte, en Soybits tenemos ya una pasarela instalada en modo de pruebas y si vemos que existe un interés por parte de los editores podríamos abrirla para un uso general.

Enlaces relacionados:

Muestras de ficheros:

Recursos en español:


Publicado por Jordi Mustieles - 15/12/08

Etiquetas, , , ,

Comentarios [1]

1 Angelica - 27/11/09 a las 19:53:32

Con el fin de aumentar el acceso y la difusión de la producción científica de Iberoamérica, Redalyc ha implementado el protocolo OAI-MPH, poniendo a disposición más de 55000 registros para la comunidad de archivos abiertos. http://redalyc.uaemex.mx/

Enviar comentario


Radar del sector

síguenos en twitter: @soybits

Para seguirnos


Volver arriba

Contacto · Consultoría y soluciones