DEFINICIÓN DE MOTOR DE BUSQUEDA
Un motor de busqueda es mecanismo que se encarga de la extracción de datos útiles para el usuario que se encuentran originalmente en una gran colección de datos desordenados como es la red de Internet a partir de un subconjunto de estos que se encuentran almacenandos dentro de las estructuras de datos internas al servicio en cuestión.
Generalmente los datos se adquieren a partir de la información textual publicada en forma de páginas Web, pero esto no es siempre es así, ya que en la actualidad se puede buscar información dentro de los servicios de news, directorios ftp, documentos en formato PDF, etc.
Estos servicios de búsqueda de datos se pueden subdividir en dos grandes grupos: los índices temáticos y los robots.
Un motor de busqueda es mecanismo que se encarga de la extracción de datos útiles para el usuario que se encuentran originalmente en una gran colección de datos desordenados como es la red de Internet a partir de un subconjunto de estos que se encuentran almacenandos dentro de las estructuras de datos internas al servicio en cuestión.
Generalmente los datos se adquieren a partir de la información textual publicada en forma de páginas Web, pero esto no es siempre es así, ya que en la actualidad se puede buscar información dentro de los servicios de news, directorios ftp, documentos en formato PDF, etc.
Estos servicios de búsqueda de datos se pueden subdividir en dos grandes grupos: los índices temáticos y los robots.
CARACTERÍSTICAS DE LOS PRINCIPALES MOTORES DE BUSQUEDA DISPONIBLES EN LA ACTUALIDAD
MOTOR DE BÚSQUEDA | YAHOO | ALTAVISTA | HOTBOT | EXCITE | ||
CARACTERÍSTICAS | ||||||
NAVEGACIÓN Y BUSQUEDA DE CATEGORÍAS | SÍ | SÍ | NO | SÍ | SÍ | |
PALABRAS OBLIGADAS | SÍ | SÍ | SÍ | SÍ | SÍ | |
PALABRAS PROHIBIDAS | SÍ | SÍ | SÍ | SÍ | SÍ | |
BÚSQUEDA DE FRASES | SÍ | SÍ | SÍ | SÍ | SÍ | |
BÚSQUEDA RESTRINGIDA POR LENGUAJE | SÍ | NO | SÍ | SÍ | SÍ | |
TRADUCCIÓN | SÍ | NO | SÍ | NO | NO | |
BÚSQUEDA EN OTROS MEDIOS | PDF, Usenet, news, imágenes | Usenet, películas, imágenes, páginas amarillas, etc. | NO | ftp, bolsas de trabajo, nombres de dominio, etc. | News, e-mail. | |
BÚSQUEDA RESTRINGIDA POR TIEMPO | SÍ | SÍ | SÍ | SÍ | NO | |
SIMILARES | SÍ | SÍ | SÍ | SÍ | SÍ | |
CONECTOR LÓGICO POR DEFECTO | AND | AND | OR | AND | OR | |
SALIDA | Url, descripción, categoría, tamaño, sitio, advertencias | Descripción, URL, tamaño, lenguaje, fecha | Descripción, url, tamaño, lenguaje, fecha | Descripción, url, tamaño, categoría, fecha | Descripción, sitio y url | |
OTRAS CARACTERÍSTICAS | Busca páginas con enlaces a la página, busca imágenes, busca dentro de títulos y urls. Caché de páginas. Restricción de la búsqueda dentro de los resultados | Búsqueda dentro de títulos de las páginas y dentro de urls | Campos de búsqueda: domain: host: image: title: url: link: like: anchor: applet: | Puede restringir las búsqueda por países (por sus dominios), puede buscar páginas conteniendo recursos (applets, video, mp3, etc.) | Busca en títulos, en sitios, urls, links, dominios, países |
PERSONALIZACIÓN
Un aspecto importante a tener en cuenta es la personalización. En la actualidad la mayoría de estos servicios soporta de alguna manera u otra esta característica. Algunos utilizan cookies que hacen posible que el usuario se ha identificado inmediatamente para las preferencias predefinidas determinen la forma en que se va a comportar el sistema y como se van a presentar los datos, y otros realizan esta misma tarea a través de la asignación de una cuenta de usuario.
Características de personalización de los motores de búsqueda relevados:
Google: Posee una página de preferencias que establece una cookie para mantener los parámetros que le asigne el usuario, estos permiten indicar el lenguaje por defecto de la interfaz, del lenguaje en el cual realizar las consultas, y si el usuario lo requiere sean traducidas las páginas a un idioma en particular. Permite además especificar el número de coincidencias a mostrar por página y si el usuario lo quiere que los resultados se muestren automáticamente en una nueva ventana.
Altavista: Posee una página de preferencias desde la cual se puede especificar preferencias relativas la lenguaje, seleccionando un conjunto de estas en los cuales realizar las búsquedas, permitiendo además configurar las codificaciones para alfabetos no romanos, pero no permitiendo especificar un lenguaje por defecto al cual traducir las páginas. Permite además cuales de los campos de salida visualizar, establecer cuales links opcionales visualizar - estos son "similares", "traducir esta página", "páginas relevantes adicionales de este sitio"- y por último decidir cuantas ocurrencias desean visualizarse por página (por defecto 10). Todas estas configuraciones son tomadas por defecto para realizar las posteriores búsquedas, pero si se especifican otras al momento de realizarlas, serán estás últimas las que serán tomadas en cuenta.
HotBot: como los anteriores posee una página de preferencias donde pueden especificarse entre otros los siguientes parámetros:
Excite: Al igual que Yahoo, permite la personalización a través de una cuenta de usuario. Permite personalizar contenidos, colores y organización en general de la página.
METABUSCADORES
Son sistemas capaces de buscar información acerca de un tema específico, pero en lugar de ser éste quien recolecta los datos de la red, deriva las consultas a varios motores de búsquedas existentes en Internet a la vez.
A pesar de que estos sistemas pueden tener Interfaz Web, tal como un buscador tradicional, su funcionamiento es muy diferente, y debido a que no tienen que manejar grandes cantidades de datos, los requerimientos de hardware no son tan exigentes como en un buscador tradicional, la implementación de estos sistemas pueden ejecutarse del lado del cliente.
FUNCIONAMIENTO
La interfaz de usuario de estos básicamente consiste en un cuadro de texto donde el usuario ingresa palabras, conectores lógicos, exclusiones, etc., o eventualmente mediante formularios.
Una vez que el usuario acciona el comando para buscar la información, el sistema interpreta ésta mediante un conjunto de reglas predefinidas para generar las consultas en el formato que usa cada uno de los motores de búsqueda en particular. Luego ejecuta estas consultas en forma paralela.
Dado que un objetivo primordial de los metabuscadores es mejorar la forma en que se puede buscar la información haciendo uso de los buscadores tradicionales, una forma en que se optimizan las búsquedas es a través de la modificación de las consultas ingresadas por el usuario. La forma en que esto realiza tiene que ver con aprovechar las características expresivas especiales de cada motor de búsqueda para producir mejores resultados, o bien con agregar palabras clave para aprovechar las características propias de la colección de datos del buscador. Asi, por ejemplo podría insertarse un parámetro para indicarle a cierto motor de búsqueda que ordene los resultados por fecha, o podrían insertarse las palabras clave "abstract", "introduction" y "references", si se quisiera que la búsqueda devuelva trabajos de investigació científica.
Una vez que el metabuscador recibe los resultados de cada uno de los buscadores específicos, debe filtrar los resultados para eliminar los documentos duplicados. Esto además sirve como método de rankeo, ya que si un documento se encuentra en repetidas ocasiones, el sistema puede asignarle mayor prioridad a este documento.
En resumen, a través de los metabuscadores, se tiene una forma de realizar potentes búsquedas utilizando las mejores características de los motores de búsqueda que se encuentran disponibles en Internet, ahorrándole al usuario la tarea de realizar búsquedas individuales en cada uno de estos servicios y filtrando los resultados manualmente, con la consecuente pérdida de tiempo.
Un aspecto importante a tener en cuenta es la personalización. En la actualidad la mayoría de estos servicios soporta de alguna manera u otra esta característica. Algunos utilizan cookies que hacen posible que el usuario se ha identificado inmediatamente para las preferencias predefinidas determinen la forma en que se va a comportar el sistema y como se van a presentar los datos, y otros realizan esta misma tarea a través de la asignación de una cuenta de usuario.
Características de personalización de los motores de búsqueda relevados:
Google: Posee una página de preferencias que establece una cookie para mantener los parámetros que le asigne el usuario, estos permiten indicar el lenguaje por defecto de la interfaz, del lenguaje en el cual realizar las consultas, y si el usuario lo requiere sean traducidas las páginas a un idioma en particular. Permite además especificar el número de coincidencias a mostrar por página y si el usuario lo quiere que los resultados se muestren automáticamente en una nueva ventana.
Altavista: Posee una página de preferencias desde la cual se puede especificar preferencias relativas la lenguaje, seleccionando un conjunto de estas en los cuales realizar las búsquedas, permitiendo además configurar las codificaciones para alfabetos no romanos, pero no permitiendo especificar un lenguaje por defecto al cual traducir las páginas. Permite además cuales de los campos de salida visualizar, establecer cuales links opcionales visualizar - estos son "similares", "traducir esta página", "páginas relevantes adicionales de este sitio"- y por último decidir cuantas ocurrencias desean visualizarse por página (por defecto 10). Todas estas configuraciones son tomadas por defecto para realizar las posteriores búsquedas, pero si se especifican otras al momento de realizarlas, serán estás últimas las que serán tomadas en cuenta.
HotBot: como los anteriores posee una página de preferencias donde pueden especificarse entre otros los siguientes parámetros:
- Comportamiento de la búsqueda: puede especificarse que el texto introducido dentro de la casilla de búsqueda sea reconocido como una frase exacta, que se busquen todas las palabras, algunas de ellas, que se busque el texto dentro del título de la página, etc.
- Lenguaje: permite seleccionar un lenguaje por defecto para restringir las páginas donde buscar.
- Palabras filtro: seleccionando esta opción pueden restringirse los resultados de las búsquedas indicando palabras que pueden y palabras que no pueden aparecer en los documentos obtenidos de las búsquedas realizadas.
- Fecha: permite especificar un período máximo desde la última actualización para las páginas que se obtengan de las búsquedas sucesivas.
- Recursos: pueden especificarse recursos que deben contener las páginas para ser visualizadas dentro de la página de resultados. Estos incluyen imágenes, audio, Java, JavaScript, etc.
- Localización/Dominio: pueden seleccionarse dominios pertenecientes a los diferentes continentes, elegidos desde una lista desplegable y también dominios específicos.
Excite: Al igual que Yahoo, permite la personalización a través de una cuenta de usuario. Permite personalizar contenidos, colores y organización en general de la página.
METABUSCADORES
Son sistemas capaces de buscar información acerca de un tema específico, pero en lugar de ser éste quien recolecta los datos de la red, deriva las consultas a varios motores de búsquedas existentes en Internet a la vez.
A pesar de que estos sistemas pueden tener Interfaz Web, tal como un buscador tradicional, su funcionamiento es muy diferente, y debido a que no tienen que manejar grandes cantidades de datos, los requerimientos de hardware no son tan exigentes como en un buscador tradicional, la implementación de estos sistemas pueden ejecutarse del lado del cliente.
FUNCIONAMIENTO
La interfaz de usuario de estos básicamente consiste en un cuadro de texto donde el usuario ingresa palabras, conectores lógicos, exclusiones, etc., o eventualmente mediante formularios.
Una vez que el usuario acciona el comando para buscar la información, el sistema interpreta ésta mediante un conjunto de reglas predefinidas para generar las consultas en el formato que usa cada uno de los motores de búsqueda en particular. Luego ejecuta estas consultas en forma paralela.
Dado que un objetivo primordial de los metabuscadores es mejorar la forma en que se puede buscar la información haciendo uso de los buscadores tradicionales, una forma en que se optimizan las búsquedas es a través de la modificación de las consultas ingresadas por el usuario. La forma en que esto realiza tiene que ver con aprovechar las características expresivas especiales de cada motor de búsqueda para producir mejores resultados, o bien con agregar palabras clave para aprovechar las características propias de la colección de datos del buscador. Asi, por ejemplo podría insertarse un parámetro para indicarle a cierto motor de búsqueda que ordene los resultados por fecha, o podrían insertarse las palabras clave "abstract", "introduction" y "references", si se quisiera que la búsqueda devuelva trabajos de investigació científica.
Una vez que el metabuscador recibe los resultados de cada uno de los buscadores específicos, debe filtrar los resultados para eliminar los documentos duplicados. Esto además sirve como método de rankeo, ya que si un documento se encuentra en repetidas ocasiones, el sistema puede asignarle mayor prioridad a este documento.
En resumen, a través de los metabuscadores, se tiene una forma de realizar potentes búsquedas utilizando las mejores características de los motores de búsqueda que se encuentran disponibles en Internet, ahorrándole al usuario la tarea de realizar búsquedas individuales en cada uno de estos servicios y filtrando los resultados manualmente, con la consecuente pérdida de tiempo.
No hay comentarios:
Publicar un comentario