Visualización de la Información Científica Mediante Redes PFNET

Grupo Scimago

Félix de Moya-Anegón, Benjamín Vargas-Quesada, Zaida Chinchilla-Rodriguez, Elena Corera-Álvarez, Victor Herrero-Solana, Francisco J. Munoz-Fernández.

Universidad de Granada


Introducción

La información científica se encuentra diseminada por disciplinas que, para los no especialistas en la materia, y a veces para ellos mismos están poco relacionadas entre sí. Es por esto que en la mayoría de los casos, al estudiar un campo de conocimiento concreto siguiendo los métodos tradicionales, siempre queda la sensación de no comprenderlo en su conjunto. Percibimos el campo de conocimiento como algo desgajado de la totalidad y sin ningún tipo de relación con el resto.

La necesidad de representar la información científica de una forma más inteligible para la mente humana no es algo nuevo. Hacer visible, especialmente para nuestra mente (aquello que no es visible para nuestros ojos)... crear una imagen mental de algo (aquello que no se ve a simple vista, una abstracción, etc.), son dos definiciones de la palabra visualización, que ponen de manifiesto la necesidad intrínseca de representar la información de una forma distinta a la tradicional. Pero visualizar no es el resultado implícito del acto de ver, no es un producto expontáneo del individuo que recibe la información ya visualizada. Visualizar es una tarea del comunicador visual, que transforma datos abstractos y fenómenos complejos de la realidad en mensajes visibles, haciendo posible que los individuos vean con sus propios ojos datos y fenómenos que son directamente inaprehensibles, y por tanto comprendan la información que yace oculta.

Conseguir la visualización de la información científica, ha sido un anhelo perseguido desde los años 50 del pasado siglo XX. El objetivo fundamental que se persigue hoy día, es el de conseguir una primera representación gráfica o mapa de un dominio que sea lo suficientemente general e informativo para que el usuario tome conciencia del área en la que trabaja, y luego hacer zoom o ir descendiendo niveles en cada una de las disciplinas resultantes, ya sea mediante el uso de técnicas multivariantes, o por medio de trazadores de redes.

Nuestro objetivo es proponer una nueva técnica de visualización esquemática que sea el reflejo de las interacciones entre los autores y su papel en la ciencia por medio de sus citas. Para ello recurrimos a información relacional y a algoritmos de simplificación y posicionamiento de la información.

Material y Métodos

La base informativa para la elaboración del prototipo que aquí se expone, se cimenta en la información recopilada y almacenada en el Web of Knowledge a través de sus distintas bases de datos, en concreto para el año 2002, y cuenta con: 1.751.996 autores de 206 países distintos, los cuales, de forma autónoma o en colaboración, han publicado 901.493 documentos (articles, biographical items, book reviews, corrections, editorial materials, letters, meeting abstracts, news items y reviews) recogidos en 8.628 revistas aceptadas por el JCR y a las que se les han hecho corresponder las 219 categorías contempladas por el propio JCR del año 2002. El número total de citas que generan estos trabajos es de 25.682.754.

Las razones para utilizar estas fuentes de datos se deben fundamentalmente a que los productos ISI , cuentan con una estructura diferente a la mayoría de las bases de datos comerciales, ya que incluyen las referencias o citas bibliográficas en las que los autores apoyan o justifican sus afirmaciones, proporcionándonos así la información relacional necesaria para nuestras visualizaciones.

La metodología utilizada se basa en la cocitación de categorías del ISI-JCR, en el algoritmo de "poda" Pathfinder, y en el algoritmo de representación de Kamada-Kawai. El resultado de la cocitación de categorías es una matriz simétrica de N por N categorías, donde N es la cantidad de categorías existentes en la producción del dominio que se pretende visualizar, dicha matriz es reducida a sus relaciones esenciales o más significativas, mediante el algoritmo de Pathfinder (PFNET), y posteriormente, representada según los principios fundamentalmente estéticos del algoritmo de Kamada-Kawai.

Con el fin de detectar áreas temáticas que agrupen las distintas categorías del ISI-JCR, la matriz de cocitación de categorías es sometida a análisis factorial (PCA), que consiste en una técnica exploratoria multivariante, que puede ser utilizada para examinar una amplia gama de conjuntos de datos, explicando el máximo de variabilidad inicial sin diferenciar entre factores comunes y específicos. Su resultado es superpuesto sobre la representación obtenida mediante el algoritmo anterior.

Para favorecer la comprensión de la representación gráfica, cada esfera ha sido etiquetada con el nombre de su correspondiente categoría del JCR, a la cual representa, y se le ha dado un tamaño variable que es directamente proporcional a la cantidad de documentos que aglutina. Para ayudar a establecer visualmente la relación entre el tamaño de cada una de las categorías y su producción real, en la parte inferior izquierda de la visualización, se ha representado una esfera de referencia con un tamaño equivalente a mil documentos. Las líneas que conectan las distintas esferas, son las relaciones de cocitación más significativas o esenciales entre categorías, pues las más superfluas se han eliminado mediante el algoritmo de PFNET. Estas relaciones son más o menos gruesas dependiendo de su intensidad de cocitación ?a mayor intensidad, mayor grosor?. Y en todo caso, representan el punto de vista consensuado de los autores, por medio de sus citas. Las categorías que componen cada uno de los factores identificados por el análisis factorial con un valor = a 0.5, han sido pintadas con un color distinto. Aquellas que pertenecen a distintos factores se han coloreado de rojo. Las que no pertenecen a ninguno, de gris oscuro.


Resultados

El resultado final es una visualización en forma de red PFNET que:

" muestra la estructura esencial de la ciencia por medio de los enlaces más significativos obtenidos a partir de la cocitación de categorías del JCR,

" es amigable desde el punto de vista de su facilidad de comprensión, por parte de cualquier usuario,

" hace surgir las distintas agrupaciones científicas que conforman la estructura de un dominio encadenándolas en secuencias explícitas,

" que añaden información adicional visual, en nodos y enlaces, con respecto a las redes PFNETs realizadas hasta ahora.

Conclusiones

A partir de unos medios muy básicos, y con unos costes informáticos mínimos, nuestro prototipo esquematiza las relaciones existentes entre millones de documentos, hasta representar la estructura científica básica.

La metodología aquí expuesta puede ser perfectamente utilizada para generar visualizaciones de todo tipo de dominios científicos: geográficos, temáticos, sectoriales, institucionales, etc.

Las visualizaciones obtenidas, se han conseguido a partir de la información de las bases de datos del ISI, pero pueden ser construidas mediante la información relacional procedente de cualquier otra base de datos.

Estas visualizaciones pueden convertirse en la interfaz para el acceso, recuperación y suministro de información bibliométrica, a partir de la cual, están construidas.