Corso di

Information Retrieval

II Anno - Laurea Magistrale in Informatica

(Indirizzo: Intelligenza Artificiale)

Università di Padova

Anno Accademico 2008/09

Docente: Dott. Fabio Aiolli


COMUNICAZIONI

ESAMI:

Scritto e orale il 23/12/08 dalle ore 09:00, AULA 2BC/60 TA.
Orale 7/1/09 dalle ore 10:00, AULA 1BC/45 TA

SEMINARI:

Attenzione, e' stato predisposto uno spreadsheet (google) per l'iscrizione/pianificazione dei seminari.  Date previste disponibili per i vostri seminari: Gio 4/12, Mer 10/12, Gio 11/12, Lun 15/12, Gio 18/12.
Sito collezione slides relative ai seminari tenuti dagli studenti.



Obiettivi del corso

L'obiettivo del corso è quello di fornire un'introduzione ai concetti fondamentali e alle tecniche dell'Information Retrieval, la disciplina che si occupa della realizzazione di sistemi per l'accesso mediante mezzo informatico a dati con semantica non formalizzata. In particolare, il corso introdurrà metodi e tecniche per la ricerca e la gestione basata su contenuto di testi, nonché alcune applicazioni avanzate di questa tecnologia come i motori di ricerca su Web, la categorizzazione e il clustering automatici di documenti in forma digitale, e l'estrazione di informazione. Il corso dà luogo al conseguimento di 6 CFU.

Propedeuticità: Nessuna ma é fortemente consigliato l'aver giá seguito il corso di Sistemi Intelligenti.

Programma di massima del corso (48 ore)


Orario del corso

Il corso fa parte del II anno del Corso di Laurea Magistrale in Informatica, indirizzo di Intelligenza Artificiale, ed è collocato nel I trimestre dell'Anno Accademico 2008/09, con il seguente orario:
 
Giorno
Orario
Aula
Lezione
Lunedi'
11.30 -- 13.30
1BC50, Torre Archimede
Lezione
Mercoledi
09.30 -- 11.30
1BC50, Torre Archimede
Lezione Giovedi 11.30 -- 13.30 1BC50, Torre Archimede

Orario di ricevimento 

Giorno
Orario
Studio
Lunedì
14:30 -- 15:30
426, IV piano Torre Archimede

Calendario degli accertamenti di profitto

L'accertamento di profitto comprenderà un seminario (da tenersi dallo studente su una tema a scelta fra una rosa di temi proposti dal docente) o un progetto (consistente nella realizzazione di un modulo di un sistema di IR), eventualmente da realizzarsi in gruppo, e su di una prova orale.
Possibili argomenti di seminario.

Riferimenti bibliografici

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
(N.B. l'ultima versione "draft" e' scaricabile da qui).
Parte
Copie dei lucidi
Introduzione all'IR Lezione 1
Lezione 2
Models of IR Lezione 3-7
Relevance Feedback and QER Lezione 8-9
Text Preprocessing Lezione 10
Text Clategorization Lezione 11-19
Preference Learning Lezione 20-21
Text Clustering Lezione 22-24
Web Search Lezione 25-27
Fabrizio Sebastiani. Models of information retrieval. Servizio Editoriale Universitario, Pisa, 1998 (scarica la dispensa e la sua copertina).
Fabrizio Sebastiani. Machine learning in automated text categorization. ACM surveys (scarica la dispensa). 
Ellen M. Voorhees. Overview of TREC 2004. In Proceedings of TREC-04, 13th Text Retrieval Conference, Gaithersburg, US.
Ellen M. Voorhees and Donna K. Harman (eds.). TREC: Experiment and Evaluation in Information Retrieval. The MIT Press, Cambridge, MA, 2005. (Prossimamente disponibile presso la Biblioteca del Seminario Matematico.).
David A. Grossman and Ophir Frieder. Information Retrieval: Algorithms and Heuristics. 2nd Edition, Springer Verlag, Heidelberg, DE, 2004.
Maristella Agosti, Fabio Crestani, and Gabriella Pasi (eds.). Lectures in Information Retrieval. Published in the Lecture Notes in Computer Science series, number 1980, Springer Verlag, Heidelberg, DE, 2001.
Ricardo Baeza-Yates e Berthier Ribeiro-Neto. Modern Information Retrieval. Addison Wesley, Reading, US, 1999. (Disponibile presso la Biblioteca del Seminario Matematico, Collocazione: 0.INF.044).
Soumen Chakrabarti. Mining the Web. Morgan Kaufmann, San Francisco, US, 2003. Disponibile presso la Biblioteca Interdipartimentale di Ingegneria dell'Informazione e Ingegneria Elettrica, Collocazione: DEI.C/PE.Ac.IV.269. [Leggi la recensione su SearchEngineWatch].
Christopher Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, US, 1999. (Disponibile presso la Biblioteca Interdipartimentale di Ingegneria dell'Informazione e Ingegneria Elettrica, Collocazione: DEI.Ac.I.48).
Ian H. Witten, Alistair Moffat, and Timothy C. Bell. Managing Gigabytes.2nd Edition, Morgan Kaufmann, San Francisco, US, 1999. (Disponibile presso la Biblioteca Interdipartimentale di Ingegneria dell'Informazione e Ingegneria Elettrica, Collocazione: DEI.Rb.IV.51).

Tesi di Laurea disponibili

Vorrei segnalare a chi fosse interessato che sono disponibile a seguire lavori di tesi nel settore del Machine Learning  applicato all' Information Retrieval ed in particolare nella categorizzazione, clustering e ranking di testi. L'invito si indirizza in particolare alle persone che sono a pochi esami (non piu' di 3) dalla tesi, e che hanno trovato di proprio interesse gli argomenti trattati nel corso di Information Retrieval.

Chi fosse interessato è invitato a contattarmi per un colloquio preliminare.