Anno Accademico 2006/07
|
|
|
|
|
|
|
L'obiettivo del corso è quello di fornire un'introduzione ai concetti fondamentali e alle tecniche dell'information retrieval, la disciplina che si occupa della realizzazione di sistemi per l'accesso mediante mezzo informatico a dati con semantica non formalizzata. In particolare, il corso introdurrà metodi e tecniche per la ricerca e la gestione basata su contenuto di testi, nonché alcune applicazioni avanzate di questa tecnologia come i motori di ricerca su Web, la categorizzazione e il clustering automatici di documenti in forma digitale, e l'estrazione di informazione. Il corso dà luogo al conseguimento di 6 CFU.
Il corso fa parte del I anno del Corso di Laurea Specialistica in Informatica, Università di Padova, ed è collocato nel I trimestre dell'Anno Accademico 2006/07, con il seguente orario:
Giorno Orario Aula Lezione Lunedi 13.30 -- 15.30 1B50, Torre Archimede Lezione Martedi 10.30 -- 12.30 1B50, Torre Archimede Lezione Mercoledi 11.30 -- 13.30 1B50, Torre Archimede
Giorno Orario Studio Lunedì 15:30 -- 16:30
426, IV piano Torre Archimede
L'accertamento di profitto comprenderà un seminario (da tenersi dallo studente su una tema a scelta fra una rosa di temi proposti dal docente) o un progetto (consistente nella realizzazione di un modulo di un sistema di IR), eventualmente da realizzarsi in gruppo, e su di una prova orale.
Possibili argomenti di seminario.
ISCRITTI ai SEMINARI
1) Brognara Daniele (Web Crawling), slides
2) Dal Maso Federico (Architettura "Map/Reduce" per l'elaborazione di indici di grandi dimensioni)
3) De Filippo Michele (Music Retrieval), slides
4) Deste Laura (XML based IR), slides
5) Kopliku Arlind (Web Crawling), slides
6) Mezzetti Enrico (Preference Learning), slides
7) Munaretto Matteo (IR for Asiatic Documents), slides
8) Veronese Alberto (Language Modelling), slides
ORALI
Giovedi 21/12/06 ore 9:30 - Aula 2B/40, TA
Giovedi 11/01/07 ore 9:30 - Aula 2C/30, TA
Martedi 17/07/07 ore 10:00 - Aula 1AD/30, TA
Martedi 18/09/07 ore 10:00 - Aula 1AD/30, TA
- Il libro di testo consigliato e' il seguente:
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2007.
(N.B. Ancora in versione Draft, l'ultima versione e' scaricabile da qui).
Parte Copie dei lucidi Introduzione all'IR Lezione 1,
Lezione 2Modello Booleano Lezione 3 Modelli Fuzzy e Vector Space Lezione 4,
Lezione 5
Modello Probabilistico Lezione 6 Relevance Feedbak & Co. Lezione 7 Text Pre-processing Lezione 8 Text Categorization Lezione 9
Lezione 10
Lezione 11
Lezione 12
Lezione 13
Lezione 14
Lezione 15Document Clustering Lezione 16
Lezione 17
Lezione 18Web Search Engines Lezione 19
Lezione 20
- Sulla parte 2 è anche disponibile la dispensa
Fabrizio Sebastiani. Models of information retrieval. Servizio Editoriale Universitario, Pisa, 1998 (scarica la dispensa e la sua copertina).
- Sulla Text Categorization è disponibile la dispensa
Fabrizio Sebastiani. Machine learning in automated text categorization. ACM surveys (scarica la dispensa).
- Sul Preference Learning e' disponibile l'articolo
- I seguenti articoli costituiscono inoltre lettura consigliata.
- I seguenti libri di testo sono consigliati per la consultazione.
![]()
Ellen M. Voorhees and Donna K. Harman (eds.). TREC: Experiment and Evaluation in Information Retrieval. The MIT Press, Cambridge, MA, 2005. (Prossimamente disponibile presso la Biblioteca del Seminario Matematico.). ![]()
David A. Grossman and Ophir Frieder. Information Retrieval: Algorithms and Heuristics. 2nd Edition, Springer Verlag, Heidelberg, DE, 2004. ![]()
Maristella Agosti, Fabio Crestani, and Gabriella Pasi (eds.). Lectures in Information Retrieval. Published in the Lecture Notes in Computer Science series, number 1980, Springer Verlag, Heidelberg, DE, 2001. ![]()
Ricardo Baeza-Yates e Berthier Ribeiro-Neto. Modern Information Retrieval. Addison Wesley, Reading, US, 1999. (Disponibile presso la Biblioteca del Seminario Matematico, Collocazione: 0.INF.044). ![]()
Soumen Chakrabarti. Mining the Web. Morgan Kaufmann, San Francisco, US, 2003. Disponibile presso la Biblioteca Interdipartimentale di Ingegneria dell'Informazione e Ingegneria Elettrica, Collocazione: DEI.C/PE.Ac.IV.269. [Leggi la recensione su SearchEngineWatch]. ![]()
Christopher Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, US, 1999. (Disponibile presso la Biblioteca Interdipartimentale di Ingegneria dell'Informazione e Ingegneria Elettrica, Collocazione: DEI.Ac.I.48). ![]()
Ian H. Witten, Alistair Moffat, and Timothy C. Bell. Managing Gigabytes.2nd Edition, Morgan Kaufmann, San Francisco, US, 1999. (Disponibile presso la Biblioteca Interdipartimentale di Ingegneria dell'Informazione e Ingegneria Elettrica, Collocazione: DEI.Rb.IV.51).
Vorrei segnalare a chi fosse interessato che sono disponibile a seguire lavori di tesi nel settore del Machine Learning applicato all' Information Retrieval ed in particolare nella categorizzazione, clustering e ranking di testi. L'invito si indirizza in particolare alle persone che sono a pochi esami (non piu' di 3) dalla tesi, e che hanno trovato di proprio interesse gli argomenti trattati nel corso di Sistemi Informativi.
Chi fosse interessato è invitato a contattarmi per un colloquio preliminare.