Categorizzazione Automatica di Brevetti: due nuove misure di valutazione Riccardo Cardin Data: 22 Febbraio, ore 14:30 Luogo: Sala Riunioni VII piano, Torre Archimede Abstract: Negli anni più recenti, la comunità del Machine Learning ha iniziato ad affrontare problemi di classificazione sempre più particolari per struttura e forma delle etichette da predirre. Uno di questi casi è rappresentato dalla predizione di etichette che associano ad un'istanza un insieme di classi di primario interesse e un altro insieme di classi secondarie, distinto dal primo, che riguardano aspetti dell'istanza più marginali, ma ugualmente importanti per caratterizzare l'istanza stessa nel suo complesso. Esempi di classificazione "preferenziale" sono presenti in molti ambienti, come ad esempio la classificazione di brevetti secondo lo standard definito dalla World Intellectual Property Organization WIPO, o la classificazione di articoli medico-biologici con la tassonomia MeSH. Le misure di valutazione standard utilizzate nel mondo del ML come ad esempio la precision e la recall, la loro media geometrica (F1-measure) e l'accuracy, mal si adattano a questi problemi di classificazione, costringendo chi le usa ad utilizzare euristiche, a volte di dubbio fondamento, per ottenere una misura di performance unica per la classificazione delle classi primarie e delle classi secondarie. Una possibile soluzione sembra quella di adottare misure di valutazione provenienti dall'ambiente del ranking, come la kendall-tau, vedendo la classificazione preferenziale come un caso di ranking con ties. Anche in questo caso, però, problemi legati alla distribuzione non uniforme fra i ties delle classi, minano la bontà dei risultati ottenuti con le suddette misure. Nel seminario si esporranno quindi i limiti delle usuali misure di valutazione nei problemi di classificazione di tipo "preferenziale", presentando due nuove misure alternative, la 3-tiered F1 e la normalized p-kendall-tau, definite per questo tipo di classificazione.