15 de mayo de 2015

Repositorios en América Latina tienen poca visiblidad en Google Scholar

El autoarchivo es las formas de publicar en acceso abierto (AA) la producción académica, sean éstas investigaciones originales, tesis, material de estudio o de difusión y otras actividades relacionadas con el conocimiento científico. No es novedad que la mayoría de las universidades mantienen repositorios institucionales, en Iberoamérica pero principalmente en los países desarrollados. Para asegurarse si estos esfuerzos cumplen con sus objetivos el procedimiento más directo y comprehensivo es saber qué presencia e impacto tienen los repositorios en la Web, especialmente en los principales buscadores que son Google y Google Scholar (GS).

Un reciente artículo “Are Latin-American repositories invisible on Google and Google Scholar¹”, presentó resultados sorprendentemente pobres comparados con las expectativas de los investigadores, lo que fue motivo de una interesante discusión en la red de INCYT² la última semana del mes de junio pasado.

Analizaremos en ente post las posibles razones que podrían explicar el pobre desempeño de los repositorios, y también, el cuestionamiento a este medio como instrumento para aumentar la visibilidad y por ende el impacto científico, las conclusiones de la discusión en INCYT, y aportaremos material técnico adicional para su justificación.

La visibilidad, cobertura o presencia deficiente que tienen los repositorios en general en los buscadores Google/GS no es una novedad, pues en el año 2012, un artículo seminal de Arlitschy O’Brien³, que analiza 21 repositorios en universidades en USA, dejó en evidencia que la cobertura de la indexación de Google/GS es baja con un ratio de documentos indexados del orden del 30% en GS. Posteriormente a esta investigación un análisis similar se realizó sobre el repositorio de documentos del Banco Mundial⁴, revelando que sólo un 17,5% de los más de 15.000 documentos están indexados en Google/GS. Finalmente los resultados de la investigación que comentamos, analizaron la visibilidad e impacto Web de 127 repositorios latinoamericanos que contienen 113.000 documentos PDF, donde hallaron que Google solo llega a una cobertura del 48,3% y apenas se detectan el 2,5% en GS. Si la búsqueda se amplía a todo tipo de documentos, el ratio de recuperación es bastante mayor en Google, pero GS sólo llega a un tercio de los documentos existentes.

Las preguntas que surgen son, por lo menos, las siguientes:
  • Por qué los repositorios son tan poco visibles,
  • Cómo lograr que sean correctamente indexados para hacer visibles sus documentos.
  • Cómo afecta esta situación la promoción de la carrera de un investigador que desea publicar en AA.
  • ¿Serán los repositorios instrumentos idóneos para hacer visible la producción científica?
Algunas razones técnicas que explican los pobres resultados serían:
  • Problemas en los robots de Google/GS, y los procedimientos para recuperar documentos indexados. Debemos hacer notar que Google y GS usan bases de datos diferentes así como diferentes robots y criterios de indexación. Por esta razón los resultados son tan diferentes en uno y otro.
  • Problemas en las estructuras de los documentos depositados y los metadatos asociados que no siguen “buenas prácticas”.
  • Problemas en las arquitecturas de los Sitios Web de los repositorios que alojan los documentos.
  • Esto no significa que los repositorios institucionales estén mal administrados, o que no lleven estadísticas de sus contenidos o downloads o que no se pueda recuperar allí la información depositada. Dos ejemplos de repositorios importantes de referencia son la Biblioteca Digital de Unicamp con más de 40.000 tesis, o la Red Federada de Repositorios Institucionales de Publicaciones Científicas con más de 800.000 documentos. El problema es que, en general, las personas que están investigando no van directamente a un repositorio específico para descubrir lo que allí está depositado, sino que en la inmensa mayoría de los casos buscan a través de Google/GS. En otras palabras, la visibilidad de los contenidos depende en forma importante de esos buscadores. Años atrás se decía “si no estás en Internet no existes”, pues ahora podríamos decir, “si estás en Internet, pero no eres visible a Google, tampoco existes”.
Algunos de los problemas técnicos de los repositorios son mencionados en las referencias (ORDUÑA-MALEA 2014; TAY 2014; Inclusion Guidelines for Webmasters), que brevemente descriptos son:
  • Los artículos en el repositorio deben ofrecer en AA los textos completos de los artículos, o al menos, el resumen preparado por el autor.
  • El repositorio no debe solicitar a los usuarios (o los robots) registrarse previamente para ingresar, ni instalar software especial, o aceptar “disclaimers”, bloquear ventanas emergentes (popup), insertar avisos, clicar links o botones, o desplegar (scroll) las páginas para poder leer los resúmenes.
  • Los repositorios que tienen páginas de logins, o meras referencias bibliográficas sin resúmenes no serán incluidas, o serán removidas del GS si fueron previamente indexadas.
  • Si los robots no pueden recuperar las páginas debido a errores del servidor, configuraciones erróneas o respuestas lentas, es posible que los documentos, si existen en Google/GS, sean removidos de la base de datos.
  • Los documentos, sea en HTML o PDF, debe ser indexables, o sea debe poder buscarse por palabras usando Adobe Acrobat Reader.
  • Cada documento debe ser menor a 5MB de tamaño. Si son mayores o tienen páginas con imágenes deberían ser enviadas al Google Book Search.
  • Una de las razones más frecuentes por las que no son indexados correctamente es el uso del Schema de metadatos Dublin Core (DC). Google indicae xpresamente en las Instrucciones para Webmasters, que DC es el sistema de metadatos menos recomendado, dando preferencia a otros esquemas como Highwire Press, JSTORE, y… en forma muy interesante, Google recomienda el Schema de indexación de SciELO (vea el párrafo al final de la referencia Inclusion Guidelines for Webmasters⁵). La razón por la que a GS no le gusta el DC y no soporta OAI-PMH es que los metadatos DC son muy pobres para la descripción de artículos en revistas, debido a que son ambiguos para describir título de la revista, volumen, fascículo y número de páginas. En el artículo mencionado de Arlitsh (2012) sobre los repositorios de universidades norteamericanas, cuando se cambió el Schema de indexación de Dublin Core a otros esquemas de metadatos más amigables con Google/GS la visibilidad de esos repositorios aumentó considerablemente.
  • Google no incluye el texto completo de los artículos, GS es quien lo hace. GS no es una versión limitada de Google, es una versión diferente, por ejemplo GS no incluye las entradas en la Wikipedia o los blogs, pero Google sí lo hace. Solamente GS incluye los textos completos en su índice de recuperación. Por esta razón, GS ha negociado derechos especiales con las editoriales Elsevier, o Sage, ScienceDirect, etc., para indexar los textos completos de artículos que para su lectura hay que pagar, pero entregando solamente los títulos y resúmenes en los resultados de consultas6.
  • Estas investigaciones destacan la insuficiente visibilidad que tiene la producción académica latinoamericana en el Web, que en su mayoría no son publicadas en revistas de corriente principal (mainstream), por lo que no aparecerán en WoS o Scopus. La baja cobertura de indización por Google/GS a los repositorios afecta muy seriamente las ventajas del AA (en particular la viaverde), porque esa masa de documentación quedará oculta a los usuarios al no accederse vía GS y solamente podrían localizarse por el acceso directo en los repositorios.
Uno de los motivos principales de este problema son los propios errores de arquitectura con la que se crean y mantienen los repositorios y, la otra causaimportante, es usar Schemas de indización no adecuados, como es el DC. La superación de estos problemas queda de mano de los latinoamericanos.

Los repositorios son herramientas valiosas institucionales, donde se depositan materiales de la actividad académica que va más allá del clásico artículo de revista científica, como pueden ser las ponencias a congresos, las tesis, los presentaciones en slides, videos, documentación estadística, etc. De modo que el valor de estos repositorios debe ser medido desde diferentes puntos de vista y objetivos, del mismo modo que son evaluadas las revistas que no son “mainstream”.

Si un académico deposita su trabajo en un repositorio, debido a que debe cumplir con el “ritual” de publish or perish, su intención principal no es generar “impacto”, o si publica en una revista local por motivo de su currículum (vanity journals), o deposita el Power Point de su presentación, o las tesis con las que se gradúa, el objetivo de ese repositorio cumple funciones legítimas que no tienen que ver con la competencia global de obtener citaciones, impacto, etc.

El objetivo cambia cuando el investigador procura avanzar en su carrera compitiendo en “las grandes ligas”, en este caso el esfuerzo será lograr publicar en las mejores revistas posibles de la especialidad, y depositará una copia en un repositorio en AA como Plan B.

Mi reflexión

Las políticas de evaluación de la investigación, de las instituciones y departamentos de investigación, de grupos de investigadores y de investigadores individuales se basan en los índices cienciométricos clásicos en gran parte, nos guste o no. Por lo tanto, los repositorios no pesan para nada o sólo marginalmente en la ponderación del desempeño de la investigación científica y de sus actores.
los repositorios en general no tienen criterios de selección en base a calidad e innovación científica, aunque tienen otras finalidades importantes, a saber:
  • Control bibliográfico,
  • Preservación,
  • Atender políticas institucionales y nacionales de acceso abierto,
  • Complementar los índices bibliográficos como fuentes de acceso a los textos completos.
  • La evaluación de los repositorios referidos a las funciones anteriores, deberían ser realizadas mediante comparaciones internas a lo largo del tiempo midiendo el crecimiento en número de documentos, cantidad de descargas, cantidad de referencias en las redes sociales, y comparando eventualmente con otros repositorios que sirvan de referencia.
  • Finalmente, más allá de los problemas técnicos de la gestión, interoperabilidad y visibilidad, que tienen los repositorios la conclusión es que como medios de comunicación científica son muy limitados.
  • Si el objetivo en miras es mejorar el impacto y visibilidad de la producción científica la publicación de trabajos debería realizarse en revistas que tengan apoyo profesional, que cumplan con los mayores requisitos tecnológicos para lograr la máxima indexación e impacto, asegurarse que el proceso editorial esté actualizado al mejor estado del arte, que sea un proceso arbitrado, que tenga control de plagio, DOI’s, etc.
  • Esto es lo que hace el Programa SciELO.
Notas

1) ORDUÑA-MALEA, E., et al. Are Latin-American repositories invisible on Google and Google Scholar?.EC3 Google ScholarDigestReviews. 2014, nº 3.Available from: <http://googlescholardigest.blogspot.com.es/2014/06/are-latin-americanrepositories.html>

2) INCYT: Indicadores en Ciencia y Tecnología. – <http://listserv.rediris.es/cgi-bin/wa?A1=ind1406D&L=INCYT> (archivo de Junio 2014).

3) ARLITSCH, K., andO’BRIAN, P.S. Invisible institutionalrepositories: addressingthelowindexing ratios of IRs in Google. Tech Library Hi Tech. 2012, vol. 30, nº 1, pp. 60-81. Available from: <https://jira.duraspace.org/secure/attachment/13020/Invisible_institutional.pdf>

4) MARTÍN-MARTÍN, A., et al.TheWorldBank’spolicyreports in Google Scholar. Are they visible, cited, and downloaded?.EC3 Google ScholarDigestReviews. 2014, nº 2.Available from: <http://googlescholardigest.blogspot.com.es/2014/06/world-banks-policy-reports-google-scholar.html>

5) InclusionGuidelinesforWebmasters. Google Scholar. Available from: <http://scholar.google.com/intl/en/scholar/inclusion.html>

6) AaronTay – <http://3.bp.blogspot.com/-5ASx7eh_exA/U46oG0wE51I/AAAAAAAALms/Rf1d3sqf0Z8/s1600/eslevier2013.png>

Referencias

Inclusion Guidelines for Webmasters. Google Scholar. Available from: <http://scholar.google.com/intl/en/scholar/inclusion.html>

Inclusion Guidelines for Webmasters: indexing. Google Scholar. Available from: <http://scholar.google.com.sg/intl/en/scholar/inclusion.html#indexing>

ORDUÑA-MALEA, E., and LÓPEZ-CÓZAR, E.D.The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Paper accepted for publication in the scientometrics. Available from: <http://arxiv.org/ftp/arxiv/papers/1406/1406.4331.pdf>

ORDUÑA-MALEA, E., et al. Are Latin-American repositories invisible on Google and Google Scholar?. EC3 Google ScholarDigestReviews. 2014, nº 3. Availablefrom: <http://googlescholardigest.blogspot.com.es/2014/06/are-latin-americanrepositories.html>

TAY, A. 8 surprising things I learnt about Google Scholar. Musings about librarianship. 2014. Available from: <http://musingsaboutlibrarianship.blogspot.sg/2014/06/8-surprising-things-i-learnt-about.html#.U95p9fnZSYI>

Links externos

Biblioteca Digital de Unicamp - <http://www.bibliotecadigital.unicamp.br/indicadores/index.php>

Red Federada de Repositorios Institucionales de Publicaciones Científicas  -<http://www.lareferencia.info/vufind/>

Fuente: <http://blog.scielo.org/>