Full text search in PostgreSQL

La búsqueda de texto completo (FTS) permite un enfoque sofisticado para la búsqueda de texto en Totara, particularmente dentro del catálogo. Los detalles de cómo configurar esto usando PostgresSQL se pueden encontrar en esta página.

Por defecto, la base de datos PostgreSQL admite la búsqueda de texto completo en frases, palabras y búsquedas parciales desde el comienzo de la palabra (p. ej., "Edu*" devolverá elementos que contienen la palabra "educación" en ellos).

Idioma

PostgreSQL utiliza la configuración "inglés" para la búsqueda de texto completo (FTS) por defecto. Para obtener una lista de opciones disponibles, consulte los resultados de "SELECT cfgname FROM pg_ts_config;". Por ejemplo:

$CFG->dboptions['ftslanguage'] = 'english';
 $CFG->dboptions['ftslanguage'] = 'simple';
$CFG->dboptions['ftslanguage'] = 'german';

PostgreSQL no es compatible con japoneses y otros idiomas con palabras muy cortas sin espacios en el medio. Habilita la siguiente configuración para obtener un soporte experimental básico de estos idiomas:

$CFG->dboptions['fts3bworkaround'] = true;

php admin/cli/fts_repopulate_tables.php

Longitud mínima del término de búsqueda

PostgreSQL no tiene requisitos específicos de longitud por defecto y puede encontrar todas las palabras, siempre que sean palabras que se encuentran comúnmente en un diccionario.

Palabras de detención

Las palabras de detención son un conjunto de palabras que se excluirán de las consultas de índice y búsqueda. Dependen del idioma utilizado durante la indexación y la búsqueda, así como de la presencia en el diccionario para la instalación de la base de datos.

Por ejemplo, si un usuario busca "Hoteles en Wellington", el sistema excluirá "en" de la búsqueda.

Se pueden encontrar más detalles sobre las palabras de detención de PostgreSQL en la documentación de ayuda de PostgreSQL.

Búsqueda morfológica

Algo importante para tener en cuenta es que PostgreSQL no admite funciones de idioma avanzadas listas para usar, por lo que tendrás que instalar un diccionario Hunspell específico para el idioma que pretendes usar. Hay algunos lugares desde los que puedes descargar los idiomas, como LibreOffice Extensions y Mozilla Addons.

A continuación, puedes encontrar un ejemplo de cómo habilitar la búsqueda morfológica en PostgreSQL en Ubuntu 18.04 para el idioma sueco. Esta no es una guía definitiva, sino un ejemplo de cómo se puede hacer en un caso en particular. Por favor, consulta la documentación de PostgreSQL para obtener más información.

Por ejemplo, si usamos el idioma sueco, lo siguiente no funcionará de inmediato:

-- This will return {äppelträd} as lexemes instead of {äppelträd,äppel,träd} as we would expect
select * from ts_debug('pg_catalog.swedish', 'äppelträd');

Para que PostgreSQL interprete correctamente lo anterior, debes instalar el diccionario sueco Hunspell siguiendo estos pasos:

Ve a Mozilla Addons y descarga el diccionario sueco (haz clic derecho en el botón Añadir a Firefox y haz clic en Guardar enlace como).
Extraer el archivo que se descargó (a veces el archivo descargado no tiene una extensión, por lo que solo se debe añadir .oxt)
Copia los archivos *.aff, *.dic en el directorio tsearch_data de PostgreSQL y cambia el nombre a sv_se.affix y sv_se.dict.
Confirme que los archivos estén codificados en UTF-8. Lo siguiente imprimirá la codificación actual de los archivos:

file -i sv_se.*

If the files are not UTF-8 encoded you can execute the following commands (just replace ISO-8859-1 with the encoding output from above):

iconv -f ISO-8859-1 -t UTF-8//TRANSLIT sv_se.affix -o sv_se.affix
iconv -f ISO-8859-1 -t UTF-8//TRANSLIT sv_se.dict -o sv_se.dict

Ejecutar los siguientes comandos en PostgreSQL:

CREATE TEXT SEARCH DICTIONARY sv_hunspell(
 Template = ispell,
 DictFile = sv_se,
 AffFile = sv_se,
 Stopwords = swedish
 );
 
 CREATE TEXT SEARCH CONFIGURATION sv_hunspell(parser = default);
ALTER TEXT SEARCH CONFIGURATION sv_hunspell ALTER MAPPING FOR asciiword, asciihword, hword_asciipart,word, hword, hword_part WITH sv_hunspell;

-- This will return the expected {äppelträd,äppel,träd} lexemes:
select * from ts_debug('sv_hunspell', 'äppelträd');

Join the Totara Community for more resources to help you get the most out of Totara.

© Copyright 2025 Totara Learning Solutions. All rights reserved. Some content originally obtained via GPLv3 license and continues to be available under GPLv3. All other content is the sole copyright of Totara Learning Solutions.

Búsqueda de texto completo en PostgreSQL

Idioma

Longitud mínima del término de búsqueda

Palabras de detención

Búsqueda morfológica