TEMA: TABLA DE SELECCIÓN DE CAMPOS

TEMA ANTERIOR: PARÁMETROS DE LA FST


FST PARA ARCHIVO INVERTIDO

Como se indicó previamente, una FST en cada base de datos define el contenido del archivo invertido correspondiente. Los elementos generados por esta FST, una vez almacenados en el archivo invertido, constituyen el diccionario de términos recuperables para la base de datos.

El diccionario solo, sin embargo, no es suficiente para proveer un mecanismo de recuperación completo ya que cada término debe estar ligado a todos los registros de la base de datos en que este ocurra. De esta manera, para cada término recuperable en el diccionario de datos, CDS/ISIS asocia una lista de apuntadores (postings) para proveer esta liga. Cada término tiene tantos apuntadores como el número de veces que se encuentre en la base de datos.

Además, con objeto de poder realizar algunas funciones avanzadas del lenguaje de búsqueda, tales como los operadores de búsqueda de proximidad, cada apuntador (posting) indica no solamente el MFN del registro correspondiente, sino que incluye también información adicional referente a la localización del término dentro del registro del que fue extraído.

Cada apuntador (posting) tiene cuatro componentes:

 

En algunos casos, ciertos términos del diccionario generados por la FST para archivo Invertido pueden resultar poco relevantes o ambiguos para una recuperación eficiente. Por ejemplo, el término IT (en inglés) puede ser, ya sea un pronombre (en cuyo caso podría ser no necesario para recuperación), o podría ser el código de país para Italia. Esto también podría suceder para términos numéricos tales como un 34, cuyo significado puede ser obscuro cuando esté aislado de su contexto. Si el campo que produce tales términos es indizado con la técnica 0, se puede agregar significado usando un literal-prefijo para proveer un rótulo que identificará el uso particular del término. Por ejemplo, para indizar un campo que contiene el código de país en el campo 10, puede usarse el siguiente formato: "CP="v10 (en vez de v10), de tal manera que el código IT será invertido como CP=IT (en vez de solo IT). De la misma manera, si el campo 20 contiene un número de proyecto, puede usarse el formato "PROYECTO ",v20, de modo que posteriormente pueda buscarse PROYECTO 34 (en vez de solo 34).

La figura 27 presenta el resultado del proceso de la FST mostrada en la Figura 25 cuando se aplica a los registros mostrados en la Figura 6. La Figura 28 muestra la asignación completa de los apuntadores (postings) antes de ser almacenados en el archivo Invertido. La Figura 29 muestra los elementos y apuntadores (postings) correspondientes que se generarían si se utilizara el archivo de palabras vacías descrito bajo "Creación de archivos de palabras no significativas". Nótese, en este ejemplo, que a pesar de que las palabras no significativas no aparecen en la salida, son tomadas en cuenta en la numeración de la secuencia de términos.


APARTADOS:

PRUEBA DE LA FST PARA ARCHIVO INVERTIDO

MODIFICACIÓN DE LA FST PARA ARCHIVO INVERTIDO


FIN DE TEMA

CAPÍTULO SIGUIENTE: INGRESO DE DATOS

INDICE GENERAL