Thesis

The BIG research group offers many thesis opportunities, usually (but not exclusively) aimed at Master students in Computer Science and Engineering and related to research projects and/or collaborations with companies.

Our open opportunities are shown below. If you are looking for a thesis with internship in a company, click here to jump to the related opportunities.

If the open opportunities don’t suite you but you still wished to pursue a thesis on Information Systems, Big Data, or Data Mining, don’t hesitate to contact us.

Open research thesis

[NEW] Prompting and fine-tuning of LLMs for data science tasks
Master - Research thesis
Field: Business Intelligence and Data Mining
Status: Open
Abstract: The advancements in data-intensive applications and data platforms ask for technological solutions that can hardly be managed by users without a background in computer science. In this direction, LLMs bridge such technological and cultural gap by enabling human-machine interaction through natural language. Our group is running several research projects to effectively implement LLMs in data science related tasks, such as supporting users in data exploration and queries. Research theses on this topic can vary in terms of focus and complexity (e.g., from studying and optimizing a specific task of an LLM-enhanced data pipeline to understanding and evaluating the adoption of this techniques in varied real-life business-oriented scenarios).
Contact: Prof. Matteo Golfarelli, Dr. Enrico Gallinucci, Dr. Matteo Francia

[NEW] Evaluation of Cloud-based NoSQL Databases
Master - Research thesis
Field: Big Data
Status: Open
Abstract: Data modeling in NoSQL databases follows an aggregate-oriented philosophy, which involves structuring data collections based on the workload—standing in clear contrast to relational modeling, which is domain-oriented and almost completely agnostic to the queries that will be implemented. The optimization of performances and costs of a NoSQL databases build on the design of data models that are consistent with the workload and that minimize the consumption of resources. In this context, it is crucial to understand the query mechanisms and cost models of the NoSQL databases made available by cloud providers and to effectively predict the cost of the adoption of different data models.
Contact: Dr. Enrico Gallinucci

Data Platforms for Agritech
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: Digital transformation is one of the most disruptive trends of recent years, and the synergy of information and communications technologies and precision agriculture is fostering new potential in the agritech domain. Indeed, data-driven decision support systems are now taking on a major role due to the spread of the internet of (robotic) things devices coupled with artificial intelligence and machine learning, which make it possible to precisely act in every aspect of the life cycle of agricultural assets. In this context, data platforms answer the issues related to data collection, processing, exploitation, and management. The goal of the project is to engineer a domain-level data platform to collect, integrate, and manage every data relevant to the Agritech Spoke 3. Domain level refers to high-level agritech problems or areas of analysis that should be addressed and supported by the proposed system. Indeed, the data platform must collect and integrate data, and support the analytic workloads of the six partners of the Agritech Spoke 3.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

AutoML for cluster analysis
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The context of this research thesis is Automated Machine Learning (AutoML). This thesis focuses on (automated) cluster analysis and its goal is to study how natural clusters preserve in different feature spaces. For instance, in the IRIS dataset, the same natural clusters exist when the petal length feature is considered as well as when two features petal length and petal width are considered. The student is asked to study existing approaches and implement such analysis using well known frameworks for AutoML written in Python.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

Progettazione di un linguaggio visuale per la creazione di questionari
Master - Project thesis
Field: Information Systems
Status: Open
Abstract: Obiettivo della tesi è quello di progettare e realizzare un linguaggio visuale per la generazione di questionari dinamici, in maniera più evoluta rispetto alla gestione fornita dagli strumenti gratuiti disponibili (ad esempio, Google Form). Nell’ambito di vari progetti di ricerca raccogliamo informazioni da utenti tramite questionari sottoposti mediante dispositivi mobili. Per semplificare la realizzazione dei questionari si vuole creare uno strumento che permetta di realizzarli senza competenze di programmazione e con elevata espressività, similmente ad un flow chart (ad esempio, gestione if-then-else e cicli).
Contact: Prof. Matteo Golfarelli

Open thesis within companies

Data Engineering Internship at Technogym
Master - Project thesis
Field: Big Data, Data Mining
Status: Open
Abstract: Technogym is looking for Junior Data Engineers, who will be part of a team working on data infrastructure and data pipelines to support the analysis and modeling of both internal data and customer data, across all products of the Technogym Ecosystem. In this role, interns will work with a team of Data Scientists and Data Analysts and collaborate cross-functionally with Marketing, Product Marketing, and other departments working on Technogym Products - ultimately ensuring that the data infrastructure is robust, scalable, and efficient, enabling the delivery of actionable insights. Click here for more information.
Contact: Prof. Matteo Golfarelli

Proposte di tesi presso Iconsulting
Master - Project thesis
Field: Big Data
Status: Open
Abstract: L’azienda Iconsulting cerca tesisti/tirocinanti da coinvolgere su progetti cliente su tecnologie e paradigmi di frontiera. AMBITO 1: conduzione di un’analisi dettagliata su prestazioni, scalabilità ed efficienza di Spark Streaming e Kafka Streaming integrati con Azure Event Hub entrambe le tecnologie, con l’obiettivo di fornire una guida pratica e esaustiva per la selezione dell’architettura più idonea a soddisfare le esigenze specifiche e i diversi scenari di utilizzo all’interno dell’azienda. AMBITO 2: sviluppo di un’architettura avanzata su Databricks per l’ingestion e l’elaborazione di dati provenienti da sensori IoT implementando una robusta pipeline di elaborazione ed analisi dati in tempo reale, conducendo inoltre un’analisi dettagliata su prestazioni e affidabilità della soluzione proposta su casi d’uso reali e concreti. AMBITO 3 (NEW): partecipazione attiva allo sviluppo di un progetto di data integration/reporting per un cliente leader, che potrà includere: sessioni di analisi con utenti esperti del dominio di business; modellazione attraverso standard di mercato (es. DFM, E/R); implemenetazione di attività di data integration di back-end per la movimentazione/preparazione dei dati, e/o attività di sviluppo del reporting front-end; affiancamento ad un tutor e a colleghi del team progetto, con possibilità di contribuire nelle diverse attività progettuali, partecipare a SAL di avanzamento, e fare esperienza della metodologia progettuale.
Contact: Prof. Matteo Golfarelli, Dr. Enrico Gallinucci, Dr. Matteo Francia

Analista/Progettistista/sviluppatore di soluzioni IT presso Romagna Tech
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Romagna Tech cerca tesisti/tirocinanti da coinvolgere su progetti di analisi, progettazione e sviluppo di progetti di data science, con obiettivi di medio/lungo periodo e finalità di assunzione. AMBITO 1: progettazione e realizzazione (e integrazione nei sistemi web aziendali) di sistemi di intelligenza artificiale nella generazione automatica di proposte di soluzioni di Upcycling AMBITO 2: progettazione e realizzazione di sistemi di intelligenza artificiale per il monitoraggio ambientale AMBITO 3: messa a fuoco dei bisogni informativi sullo “stato di salute” di una linea di produzione ed ideazioni di nuovi servizi basati sulla possibilità conoscitive derivanti dall’introduzione dell’IIoT AMBITO 4: progettazione di un sistema basato su intelligenza artificiale per l’estrazione automatica di informazioni caratteristiche delle tracce musicali.
Contact: Prof. Matteo Golfarelli

Proposte di tesi presso Soilmec-Trevi
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Soilmec Spa cerca tesisti/tirocinanti da coinvolgere su diversi progetti, tra cui la progettazione di sistemi di business intelligence, la creazione di modelli finalizzati all’ottimizzazione degli impianti di sensoristica, lo sviluppo di applicazioni e funzionalità software avanzate per attività di controllo macchine, monitoraggio e analisi dati. In particolare: 1) Creazione di reportistica su PowerBI / Office365 dei dati macchina disponibili sul portale cloud DMS-Manager, al fine di fornire ai clienti una serie di modelli di reportistica che siano di ausilio al monitoraggio dei dati macchina - valutando inoltre l’integrazione con Microsoft Teams. 2) Ottimizzazione degli impianti di sensoristica per ridurre il numero di sensori presenti sulla macchina modellandone virtualmente alcuni sulla base delle informazioni disponibili o/e in seguito a test di caratterizzazione sperimentale e creazione di modelli di lavoro dedicati.
Contact: Prof. Matteo Golfarelli

Business Intelligence presso l’Istituto Nazionale di Fisica Nucleare
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’INFN cerca laureandi con possibilita’ di borsa di studio per lo sviluppo/evoluzione della propria infrastruttura di Business Intelligence. Le tecnologie coinvolte sono molteplici: Jasper, Tibco. Le tematiche vanno dallo sviluppo di reportistica, alla reportistica in tempo reale, all’utilizzo di sistemi NoSQL. 1) Progettazione e sviluppo di modelli dati multidimensionali orientati all’analisi visiva (dashboard e report dinamici) da produrre con strumenti di Business Analytics avanzati basati su un servizio cloud Microsoft Power BI riservato per INFN. 2) Progettazione e sviluppo su infrastruttura microservice-oriented (Spring based) di librerie e componenti java dedicati all’ampliamento dell’attuale architettura di ETL (Extract Transform and Load). L’obiettivo é intercettare, filtrare ed elaborare dati provenienti da sorgenti NoSQL( MongoDB) implementate secondo il modello microservizi. 3) Progettazione e realizzazione di modelli dati orientati all’analisi statistica con scopo predittivo, basati su dati di settore amministrativo dell’INFN (Gare e acquisti). Un possibile obiettivo é identificare le categorie di acquisto (prodotti e servizi) che nel tempo abbiano subito o meno maggiori fluttuazioni di mercato ed il loro impatto compleassivo sul budget dell’ente.
Contact: Prof. Matteo Golfarelli, Prof. Alessandra Lumini

Completed thesis

Progettazione di una soluzione di Business Intelligence a supporto dei processi decisionali presso Agrintesa, Alex Baiardi, 2024
Supervisor: Dott. Enrico Gallinucci

Journey Automation - Digital Transformation in the Wellness Industry, Chiara Bertocchi, 2024
Supervisor: Dott. Enrico Gallinucci

Engineering Data Pipelines and Analytics with DataOps, Veronika Folin, 2024
Supervisor: Dott. Enrico Gallinucci

Implementazione di un Progetto Analitico nel settore Multiutility, Michele Mongardi, 2024
Supervisor: Dott. Enrico Gallinucci

Benchmarking Materialized Views of SQL-based Stream Processing Systems, Angelo Parrinello, 2024
Supervisor: Dott. Enrico Gallinucci

Design and Development of a Data Mart for the HR Department at Amadori, Federica Dell’Orletta, 2023
Supervisor: Dott. Enrico Gallinucci

Progettazione di una piattaforma Cloud per analisi predittive in ambito industria 4.0, Vlad Mattiussi, 2023
Supervisor: Dott. Enrico Gallinucci

Social Network Analysis: Architettura Streaming Big Data di Raccolta e Analisi Dati da Twitter, Andrea Giannini, 2022
Supervisor: Dott. Enrico Gallinucci

Pairs Trading - Progettazione, sviluppo e ottimizzazione di un modello di investimento basato sul Machine Learning, Riccardo Maldini, 2021
Supervisor: Dott. Enrico Gallinucci

MLOps - Standardizing the Machine Learning Workflow, Enrico Salvucci, 2021
Supervisor: Dott. Enrico Gallinucci

A text mining approach to materiality assessment, Marta Luffarelli, 2021
Supervisor: Dott. Enrico Gallinucci

Analisi delle strategie di modellazione dei dati su database NoSQL, Riccardo Salvatori, 2021
Supervisor: Dott. Enrico Gallinucci

Riconoscimento di frodi attraverso la modellazione del comportamento degli utenti, Alex Ravaglia, 2021
Supervisor: Dott. Enrico Gallinucci

Compressione e Vocalizzazione di Risultati Multidimensionali nel Paradigma OLAP, Tommaso Bombardi, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia

Pubblicazione di dati di traiettoria preservando il principio di non informatività, Maria Maddalena Mascellaro, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia

Un framework per l’analisi di Big Data con elevata eterogeneità all’interno di Multistore, Chiara Forresi, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Enrico Gallinucci

Anonimizzazione incrementale di dati di traiettoria, Luca Semprini, 2020
Supervisor: Dott. Enrico Gallinucci

GEAR: una piattaforma Big Data per l’elaborazione di stream di dati attraverso Machine Learning e Business Rules, Eugenio Cavina, 2020
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Alessandro Proscia

Progettazione e prototipazione di un sistema di Conversational BI, Rrok Gjinaj, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci

Progettazione e implementazione di un sistema di recommendation per video digitali, Davide Borficchia, 2020
Supervisor: Prof. Matteo Golfarelli

AutoML: A new methodology to automate data pre-processing pipelines, Joseph Giovanelli, 2020
Supervisor: Prof. Matteo Golfarelli

Manutenzione predittiva di attrezzature sportive: dall’analisi delle potenzialità alla prototipazione, Giulia Lucchi, 2020
Supervisor: Prof. Matteo Golfarelli

Clustering di traiettorie in ambito big data, Federico Naldini, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Progettazione e prototipazione di un data mart per l’analisi della fluttuazione di performance, Sofia Rossi, 2020
Supervisor: Prof. Matteo Golfarelli

Clustering di traiettorie su piattaforma big data, Mattia Oriani, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Progettazione e prototipazione di un framework per Conversational OLAP, Sara Sintoni, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Map-Matching su Piattaforma Big Data, Federico Vitali, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti, Anna Giulia Leoni, 2019
Supervisor: Dott. Enrico Gallinucci

Utilizzo di dati social per la deanonimizzazione di tracce GPS, Nicola Santolini, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci