Vai al contenuto principale
Oggetto:

Statistica e Data Mining

Oggetto:

Statistics and Data Mining

Oggetto:

Anno accademico 2015/2016

Codice dell'attività didattica
MFN1618
Docenti
Prof. Rosa Meo (Titolare del corso)
elisa benedetto (Titolare del corso)
Corso di studi
Laurea in Matematica
Anno
3° anno
Periodo didattico
Secondo semestre
Tipologia
D.M. 270 TAF C - Affine o integrativo
Crediti/Valenza
6
SSD dell'attività didattica
INF/01 - informatica
MAT/06 - probabilita' e statistica matematica
Modalità di erogazione
Doppia
Lingua di insegnamento
Italiano
Modalità di frequenza
Facoltativa
Tipologia d'esame
Prova pratica
Prerequisiti

Conoscenze di base di informatica e di statistica matematica

Basic knowledge of computer science and mathematical statistics
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

Il corso si prefigge di fornire agli studenti le nozioni necessarie per l'applicazione dei modelli teorici della statistica matematica in vari contesti di tipo applicativo, nel caso in cui si disponga di set di dati di diversa complessità e di numerosità anche elevata. Saranno curati anche gli aspetti teorici a supporto delle applicazioni.

Si introducono le basi per comprendere i problemi più noti del Data Mining, tra cui la classificazione e il clustering. La classificazione tratta  l'analisi dei dati di tipo predittiva e supervisionata, ossia un'analisi che fa uso di un insieme di dati di addestramento del modello in grado di predire i valori discreti di una variabile di interesse. Durante il corso si illustreranno alcuni tra gli algoritmi più noti per la classificazione. Il clustering invece tratta l'analisi di tipo descrittiva, non supervisionata. Anche in questo caso si illustreranno alcuni degli algoritmi più noti per il clustering.  Si forniscono quindi nel contempo agli studenti gli elementi basilari per l’uso del software SAS finalizzato all’analisi statistica e all'utilizzo degli algoritmi di Data Mining visti a livello teorico. Si integrano inoltre le nozioni apprese nei corsi precedenti di Statistica con alcune tecniche di tipo non parametrico e multivariato.

Per quanto riguarda le reti neurali, strumento concettuale e computazionale valido  in particolar modo per l'analisi predittiva e molto utilizzato in alcune applicazioni, il corso intende fornire le nozioni di base riguardanti il più diffuso modello di rete neurale, il percettrone multilivello, la sua struttura, l’algoritmo di addestramento.

Il corso consente di migliorare competenze computazionali e informatiche, sviluppa le capacità necessarie per estrarre informazioni da dati quantitaitvi o qualitativi, favorisce l'attitudine al problem solving e abitua al lavoro interdisciplinare. Costituisce inoltre un'occasione importante per collegare e applicare conoscenze matematiche teoriche in contesti applicati.

Goal of this course is to provide the necessary notions for the practical employment of the statistics in a variety of contexts in which there is a data-set of a certain complexity and high cardinality. Particular care will be devoted to the connections between Mathematical Statistics theory and its applications. 
Furthermore the course provides the basic elements for the use of the software SAS Enterprise Miner whose purpose is the data analysis
and data model construction (both descriptive and predictive of some interest variable). As regards the neural networks, it provides the basic notions regarding the most wide spread model, the multilevel perceptron, its structure and the training algorithm.

This course improves computational and computer science competences, develops abilities to extract information from qualitative or quantitative data, helps the development of problem solving capacities and customizes with interdisciplinary work.Moreover it is an important instance to link mathematical theory with applications.

Oggetto:

Risultati dell'apprendimento attesi

Lo studente sarà  in grado di effettuare un’analisi statistica approfondita di dati provenienti da situazioni applicative di tipo diverso e di varia complessità, raccolti in campioni di dimensioni anche elevate, utilizzando il software statistico SAS. Comprenderà i collegamenti tra concetti teorici della statistica matematica con le problematiche applicative che possono limitarne l'applicabilità. Avrà acquisito la capacità di utilizzare gli strumenti dell’analisi statistica di base e i fondamenti del Data Mining,  per trarre informazioni rilevanti da un set di dati disponibile. Saprà scegliere gli algoritmi per l'analisi dei dati da utilizzare nei vari casi applicativi. Nel contempo avrà acquisito una buona padronanza delle risorse basilari del software SAS.

Lo studente acquisirà i principali elementi di teoria e sarà in grado di effettuare prove d’utilizzo del software SAS per la risoluzione di compiti di classificazione e/o regressione su alcuni semplici insiemi di dati.

The student will be able to develop an in-depth data analysis on data whose origin is in some applicative domain. He will understand links between mathematica statistics theory and applications, recognizing instances that prevent the use of some theorems studied in other courses.  The sample could be large and of different complexity. The student will be able to use and choose the correct algorithm choosing it from the SAS Enterprise Miner suite.
She/he will be able to use the principal Data Mining primitives (for classification or clustering) and the fundamental theory of the neural networks with the purpose to extract the relevant information available from the data. In an analogous way, she/he will be able to use the basic resources available in SAS and SAS Enterprise Miner. The student will be able to master the main theoretical concepts and will be able to use them in practice by SAS Enterprise Miner for the solution of tasks such as classification, clustering and regression in some simple cases.

Oggetto:

Modalità di insegnamento

Le lezioni vengono offerte agli studenti in modalità di e-learning, nelle quali si alterna la visione di video registrati dai docenti e tutori con la presentazione di trasparenze per la parte di teoria, a video che riprendono lo svolgimento di esercizi con l'uso del software SAS per la soluzione di problemi di analisi dei dati in casi pratici, alla proposta tramite piattaforma di apprendimento a distanza di analoghi esercizi da svolgere su nuovi insiemi di dati con l'uso dei medesimi concetti e strumenti software.

Classes are in E-learnig modalidity  with recorded video. Transparenciesfor are available to better understand  the  theory. Video show the solution of exercises with SAS software. Further exercises with new set of data are available on Moodle . Tutors help the learning.

Oggetto:

Modalità di verifica dell'apprendimento

Il tutoraggio durante il semestre aiuta l'autovalutazione. L'esame prevede una parte scritta e una orale. Per lo scritto: La prova scritta è costitutita da esercizi di analisi dei dati da svolgere sui sistemi software (R e SAS Enterprise Miner) adottati durante il corso. Il risultato di tali elaborazioni dovrà essere descritto in sede d'esame in un elaborato scritto nel quale vi saranno anche alcune domande di tipo teorico. La prova è valutata in 30simi. Per l'orale: La prova orale consiste in una discussione degli errori della prova scritta. Per superare l'esame occorre raggiungere il punteggio di 18/30.

Tutoring during the semester helps self-evaluation.The examination is written and oral. As regards the written test: It is constituted by exercizes of data analysis to be developed in software statistical systems (R and SAS Enterprise Miner) employed and learnt during the course. The result of the data analysis session will be described during the examination in a report that will foresee also some theoretical questions. The test is evaluated in thirtieths. As regards the oral test: The oral test consists in a discussion of the mistakes possibly present in the written report. The examination is passed with the score of 18/30.

Oggetto:

Attività di supporto

E' previsto un tutorato sia per la parte di Statistica che per la parte di Data Mining.

Tutoring activities are scheduled both for Statistics and Data Mining.

Oggetto:

Programma

Introduzione al SAS e introduzione all'analisi statistica con il SAS: Il software SAS, Statistica descrittiva e istogrammi, Test di ipotesi, Analisi della varianza, Regressione. Collegamenti tra problemi applicativi e basi teoriche delle metodologie utilizzate.

Introduzione al Data Mining: il processo di estrazione della conoscenza dai dati, la classificazione con una selezione di algoritmi, il clustering con una selezione di alcuni algoritmi.

Si prevede l’utilizzo di esempi ed esercizi su SAS Enterprise Miner.

Links between theory and applications. Introduction to the software SAS and to statistical analysis with SAS:

•           The software SAS

•           Descriptive statistics and histograms

•           Hypothesis testing

•           ANOVA

•           Regression.

 

Introduction to Data Mining:

•           Extracting knowledge from data

•           A selection of classification algorithms

•           A selection of clustering algorithms.

Examples and exercises will be given with SAS Enterprise Miner.

 

Testi consigliati e bibliografia

Oggetto:

Materiale fornito dai docenti

Manuale di Statistica per SAS, scaricabile per esempio al sito per esempio http://support.sas.com/documentation/cdl/en/procstat/63104/PDF/default/procstat.pdf

R. J. Roiger, M. W. Geatz, “Introduzione al data mining”, McGraw-Hill Companies, 2003

Siti WEB di consultazione

R. J. Roiger, M. W. Geatz, “Introduzione al data mining”, McGraw-Hill
Companies, 2003

Lecture notes and other material (downloadable)



Oggetto:

Orario lezioni

GiorniOreAula
Oggetto:
Ultimo aggiornamento: 12/04/2016 14:42

Non cliccare qui!