Sistemas Inteligentes de Acceso a la Información
Con el constante crecimiento de la cantidad de información disponible
en formato electrónico, representado de una manera especial por Internet
y la World Wide Web (Web), se ha hecho imperioso dotar a los usuarios de
computadoras de sistemas avanzados de acceso y gestión de dicha
información. Los Sistemas Inteligentes de Acceso a la Información
(SINAI) son programas de computadoras avanzados que, por medio de técnicas
de Inteligencia Artificial, asumen la labor de reducir la sobrecarga de
información de sus usuarios.
El objetivo principal de esta asignatura es dotar a los alumnos de
conocimientos sobre las técnicas que se emplean para el desarrollo
de este tipo de sistemas, concentrándonos en los aspectos que conciernen
a los métodos estadísticos de tratamiento del texto y al
diseño de interfaces, tomando como referencia la búsqueda de
información en la Web.
Puedes descargarte el programa
de la asignatura, la
presentación de la misma
y la ficha de aviso para problemas de
asistencia.
Recursos
-
Temario + bibliografía específica
-
Introducción a los Sistemas Inteligentes de Acceso a la
Información
(transparencias,
problemas y cuestiones,
práctica de laboratorio).
-
(BY) Capítulo 1.
-
(HE) Current
Topics in Information Access, Introduction.
-
Bruce Croft. What
Do People Want from Information Retrieval? (The Top 10 Research Issues for
Companies that Use and Sell IR Systems). DLib Magazine, Nov. 95.
-
Marti Hearst, Context
and Structure in Automated Full-Text Information Access, PhD Thesis, Berkeley,
1994 (capítulo 1).
-
EAGLES Guidelines on
Evaluation of Natural Language Processing Systems.
-
E. Voorhees, D. Harman, Overview of the Eighth Text REtrieval Conference
(TREC-8), NIST
Special Publication 500-246, 1999.
-
Técnicas básicas de recuperación de información
sobre texto (transparencias,
problemas y cuestiones).
-
(BY) Capítulos 2,7.
-
http://www.everything2.com/
(disjunctive normal form)
-
C. Faloutsos, D. Oard, 1996. A Survey of Information Retrieval and Filtering
Methods. Technical Report,
Information
Filtering Project, University of Maryland, College Park.
-
C. Charras, T.
Lecroq, Handbook of exact string matching algorithms.
http://www-igm.univ-mlv.fr/~lecroq/string/,
1997.
-
Boyer R.S., Moore J.S., 1977, A fast string searching algorithm. Communications
of the ACM. 20:762-772.
-
(MO) Intelligent
Information Retrieval and Web Search, ir.jar y documentación.
-
Problemas y mejoras sobre los métodos tradicionales
(transparencias,
problemas,
práctica y
ejemplo para la práctica).
-
(BY) Capítulos 5,7, 10
-
(MO) Intelligent
Information Retrieval and Web Search, presentaciones 6, 14.
-
Salton, G., McGill, M.J., An Introduction to Modern Information Retrieval,
McGraw-Hill, 1983.
-
The Lexical Database
WordNet.
-
C. Manning and H. Schütze,
Foundations of Statistical Natural
Language Processing, MIT Press. Cambridge, MA: May 1999, capítulo
14.
-
El
proyecto
de sitios Web adaptativos WebWatcher.
-
BAILANDO Projects:
Information Visualization (Marti Hearst), en especial:
-
El sistema de
clasificación de correo electrónico ifile.
-
Técnicas para la recuperación de información en la
Web (transparencias,
problemas).
-
(BY) Capítulo 13
-
(CHA) Capítulos 2, 3 y 7
-
La fuente fundamental de información sobre la Web es el
World Wide Web Consortium.
-
La fuente de información científica fundamental sobre la Web
son las World Wide Web Conferences.
-
Características de la Web.
-
Estadísticas en Search Engine
Watch, Search Engine
Showdown, Netcraft.
-
Andrei Broder, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar
Rajagopalan, Raymie Stata, Andrew Tomkins, Janet Wiener.
Graph structure in the web.
Proceedings of the The Ninth International WWW Conference, May 15-19, 2000,
Amsterdam, The Netherlands.
-
Anthony Bonato.
A survey
of models of the web graph. Proceedings of Combinatorial and Algorithmic
Aspects of Networking, 2004.
-
Web
Characterization [OCLC - Archived projects].
-
Ziv Bar Yossef, Andrei Z. Broder, Ravi Kumar, Andrew Tomkins.
Sic Transit Gloria
Telae: Towards an Understanding of the Webs Decay. Proceedings
of the WWW 2004, May 1722, 2004, New York, USA.
-
Devanshu Dhyani, Wee Keong Ng, And Sourav S. Bhowmick.
A Survey of Web
Metrics. ACM Computing Surveys, Vol. 34, No. 4, December 2002.
-
Motores de búsqueda.
-
Web Search
Engines, Ernest Davis,
New York University (curso).
-
Tipos de buscadores.
-
Implementación.
-
Luiz André Barroso, Jeffrey Dean, Urs Hölzle.
Web
search for a planet: the Google cluster architecture. IEEE Micro, 23(2):
22-28, March/April, 2003.
-
Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung.
The
Google File System.19th ACM Symposium on Operating Systems Principles,
The Sagamore, Bolton Landing (Lake George), New York, 2003.
-
Fabrizio Silvestri.
High Performance
Issues in Web Search Engines: Algorithms and Techniques. Ph.D. Thesis:
TD 5/04, Dottorato di Ricerca in Informatica, Dipartimento di Informatica,
Universitá degli Studi di Pisa, May, 2004.
-
Nutch - implementación libre de
un buscador de gran escala.
-
IR.JAR
- implementación de múltiples algoritmos de crawling,
junto con las herramientas básicas de RI.
-
Análisis de enlaces.
-
J. Kleinberg, S.R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins.
The Web as
a graph: Measurements, models and methods. Invited survey at the
International Conference on Combinatorics and Computing, 1999.
-
Amy N. Langville, Carl D. Meyer.
A Survey Of
Eigenvector Methods For Web Information Retrieval. To appear, SIAM Rev,
2005.
-
Sergey Brin, Lawrence Page.
The Anatomy of
a Large-Scale Web Search Engine. Proceedings of the Seventh World Wide
Web Conference, April 14-18, Brisbane, Australia, 1998.
-
Spamming - Tergiversación de rankings.
-
Directorios Web.
-
Estudios de usuarios (Web log mining) y evaluación.
-
Craig Silverstein, Monika Henzinger, Hannes Marais, Michael Moricz.
Analysis
of a Very Large AltaVista Query Log. SRC Technical Note 1998 - 014, Digital
Systems Research Center, October 26, 1998.
-
Amanda Spink, Bernard J. Jansen, Dietmar Wolfram, Tefko Saracevic.
From
E-Sex to E-Commerce: Web Search Changes. IEEE Computer Magazine, 35(3),
107-109.
-
Caroline M. Eastman, Bernard J. Jansen.
Coverage,
Relevance, and Ranking: The Impact of Query Operators on Web Search Engine
Results. ACM Transactions on Information Systems, Vol. 21, No. 4, October
2003, pages 383411.
-
Daniel E. Rose, Danny Levinson.
Understanding User
Goals in Web Search. Proceedings of the WWW 2004, May 1722, 2004,
New York, USA.
-
Más estudios es Search
Engine Watch: Ratings and Reviews
-
ETestingLabs (ahora Veritest de LionBridge)
reports,
especialmente el de
Google
-
Algunas herramientas avanzadas.
-
Búsqueda con agrupamiento de documentos:
WiseNut,
Vivisimo.
-
Refinamiento de la consulta con análisis local -
Teoma.
-
Respuesta a preguntas en lenguaje natural - Ask
Jeeves.
-
Acceso gráfico a directorios -
WebBrain.
-
Meta-búsqueda con aprendizaje - SavvySearch, ahora
Search.com
-
Agentes de ayuda a la búsqueda y navegación.
-
Direcciones de trabajo futuro.
-
Bibliografía básica
-
(BY) Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier.
Modern information
retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM,
edificio C).
-
Bibliografía complementaria
-
Enlaces
-
Cursos
-
(MO)
Intelligent
Information Retrieval and Web Search, Raymond Mooney, Universidad
de Texas.
-
(HE)
Current
Topics in Information Access, Marti Hearst, Universidad de Berkeley.
-
(MA) Text Information
Retrieval, Mining, and Exploitation, Chris Manning, Universidad de
Stanford.
-
(GA) Sistemas de
Acceso Inteligente a la Información, Manuel Carlos Díaz
Galiano, Manuel García Vega, Universidad de Jaén.
Nota sobre las transparencias: Los alumnos deberán asumir que
el material proporcionado por el profesor (apuntes de cátedra,
transparencias) no reflejan en ningún caso los contenidos de la
asignatura, debiendo ser completados por medio de los apuntes obtenidos en
las clases impartidas por el profesor, y por medio del estudio y
documentación suplementaria (incluyendo especialmente la
bibliografía).
José María Gómez
Hidalgo