The BIG research group offers many thesis opportunities, usually (but not exclusively) aimed at Master students in Computer Science and Engineering and related to research projects and/or collaborations with companies.
Our open opportunities are shown below. If you are looking for a thesis with internship in a company, click here to jump to the related opportunities.
If the open opportunities don’t suite you but you still wished to pursue a thesis on Information Systems, Big Data, or Data Mining, don’t hesitate to contact us.
[NEW] Prompting and fine-tuning of LLMs for data science tasks
Master - Research thesis
Field: Business Intelligence and Data Mining
Status: Open
Abstract: The advancements in data-intensive applications and data platforms ask for technological solutions that can hardly be managed by users without a background in computer science.
In this direction, LLMs bridge such technological and cultural gap by enabling human-machine interaction through natural language.
Our group is running several research projects to effectively implement LLMs in data science related tasks, such as supporting users in data exploration and queries.
Research theses on this topic can vary in terms of focus and complexity (e.g., from studying and optimizing a specific task of an LLM-enhanced data pipeline to understanding and evaluating the adoption of this techniques in varied real-life business-oriented scenarios).
Contact: Prof. Matteo Golfarelli, Dr. Enrico Gallinucci, Dr. Matteo Francia
[NEW] Evaluation of Cloud-based NoSQL Databases
Master - Research thesis
Field: Big Data
Status: Open
Abstract: Data modeling in NoSQL databases follows an aggregate-oriented philosophy, which involves structuring data collections based on the workload—standing in clear contrast to relational modeling, which is domain-oriented and almost completely agnostic to the queries that will be implemented. The optimization of performances and costs of a NoSQL databases build on the design of data models that are consistent with the workload and that minimize the consumption of resources. In this context, it is crucial to understand the query mechanisms and cost models of the NoSQL databases made available by cloud providers and to effectively predict the cost of the adoption of different data models.
Contact: Dr. Enrico Gallinucci
Data Platforms for Agritech
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: Digital transformation is one of the most disruptive trends of recent years, and
the synergy of information and communications technologies and precision agriculture is fostering new potential in the agritech domain. Indeed, data-driven
decision support systems are now taking on a major role due to the spread of
the internet of (robotic) things devices coupled with artificial intelligence and
machine learning, which make it possible to precisely act in every aspect of the
life cycle of agricultural assets. In this context, data platforms answer the issues
related to data collection, processing, exploitation, and management.
The goal of the project is to engineer a domain-level data platform to collect,
integrate, and manage every data relevant to the Agritech Spoke 3. Domain
level refers to high-level agritech problems or areas of analysis that should be
addressed and supported by the proposed system. Indeed, the data platform
must collect and integrate data, and support the analytic workloads of the six
partners of the Agritech Spoke 3.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia
AutoML for cluster analysis
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The context of this research thesis is Automated Machine Learning (AutoML).
This thesis focuses on (automated) cluster analysis and its goal is to study how natural clusters preserve in different feature spaces.
For instance, in the IRIS dataset, the same natural clusters exist when the petal length feature is considered as well as when two features petal length and petal width are considered.
The student is asked to study existing approaches and implement such analysis using well known frameworks for AutoML written in Python.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia
Progettazione di un linguaggio visuale per la creazione di questionari
Master - Project thesis
Field: Information Systems
Status: Open
Abstract: Obiettivo della tesi è quello di progettare e realizzare un linguaggio visuale per la generazione di questionari dinamici, in maniera più evoluta rispetto alla gestione fornita dagli strumenti gratuiti disponibili (ad esempio, Google Form). Nell’ambito di vari progetti di ricerca raccogliamo informazioni da utenti tramite questionari sottoposti mediante dispositivi mobili. Per semplificare la realizzazione dei questionari si vuole creare uno strumento che permetta di realizzarli senza competenze di programmazione e con elevata espressività, similmente ad un flow chart (ad esempio, gestione if-then-else e cicli).
Contact: Prof. Matteo Golfarelli
Data Engineering Internship at Technogym
Master - Project thesis
Field: Big Data, Data Mining
Status: Open
Abstract: Technogym is looking for Junior Data Engineers, who will be part of a team working on data infrastructure and data pipelines to support the analysis and modeling of both internal data and customer data, across all products of the Technogym Ecosystem.
In this role, interns will work with a team of Data Scientists and Data Analysts and collaborate cross-functionally with Marketing, Product Marketing, and other departments working on Technogym Products - ultimately ensuring that the data infrastructure is robust, scalable, and efficient, enabling the delivery of actionable insights.
Click here for more information.
Contact: Prof. Matteo Golfarelli
Proposte di tesi presso Iconsulting
Master - Project thesis
Field: Big Data
Status: Open
Abstract: L’azienda Iconsulting cerca tesisti/tirocinanti da coinvolgere su progetti cliente su tecnologie e paradigmi di frontiera.
AMBITO 1: conduzione di un’analisi dettagliata su prestazioni, scalabilità ed efficienza di Spark Streaming e Kafka Streaming integrati con Azure Event Hub entrambe le tecnologie, con l’obiettivo di fornire una guida pratica e esaustiva per la selezione dell’architettura più idonea a soddisfare le esigenze specifiche e i diversi scenari di utilizzo all’interno dell’azienda.
AMBITO 2: sviluppo di un’architettura avanzata su Databricks per l’ingestion e l’elaborazione di dati provenienti da sensori IoT implementando una robusta pipeline di elaborazione ed analisi dati in tempo reale, conducendo inoltre un’analisi dettagliata su prestazioni e affidabilità della soluzione proposta su casi d’uso reali e concreti.
AMBITO 3 (NEW): partecipazione attiva allo sviluppo di un progetto di data integration/reporting per un cliente leader, che potrà includere: sessioni di analisi con utenti esperti del dominio di business; modellazione attraverso standard di mercato (es. DFM, E/R); implemenetazione di attività di data integration di back-end per la movimentazione/preparazione dei dati, e/o attività di sviluppo del reporting front-end; affiancamento ad un tutor e a colleghi del team progetto, con possibilità di contribuire nelle diverse attività progettuali, partecipare a SAL di avanzamento, e fare esperienza della metodologia progettuale.
Contact: Prof. Matteo Golfarelli, Dr. Enrico Gallinucci, Dr. Matteo Francia
Analista/Progettistista/sviluppatore di soluzioni IT presso Romagna Tech
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Romagna Tech cerca tesisti/tirocinanti da coinvolgere su progetti di analisi, progettazione e sviluppo di progetti di data science, con obiettivi di medio/lungo periodo e finalità di assunzione.
AMBITO 1: progettazione e realizzazione (e integrazione nei sistemi web aziendali) di sistemi di intelligenza artificiale nella generazione automatica di proposte di soluzioni di Upcycling
AMBITO 2: progettazione e realizzazione di sistemi di intelligenza artificiale per il monitoraggio ambientale
AMBITO 3: messa a fuoco dei bisogni informativi sullo “stato di salute” di una linea di produzione ed ideazioni di nuovi servizi basati sulla possibilità conoscitive derivanti dall’introduzione dell’IIoT
AMBITO 4: progettazione di un sistema basato su intelligenza artificiale per l’estrazione automatica di informazioni caratteristiche delle tracce musicali.
Contact: Prof. Matteo Golfarelli
Proposte di tesi presso Soilmec-Trevi
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Soilmec Spa cerca tesisti/tirocinanti da coinvolgere su diversi progetti,
tra cui la progettazione di sistemi di business intelligence,
la creazione di modelli finalizzati all’ottimizzazione degli impianti di sensoristica,
lo sviluppo di applicazioni e funzionalità software avanzate per attività di controllo macchine, monitoraggio e analisi dati. In particolare:
1) Creazione di reportistica su PowerBI / Office365 dei dati macchina disponibili sul portale cloud DMS-Manager, al fine di fornire ai clienti una serie di modelli di reportistica che siano di ausilio al monitoraggio dei dati macchina - valutando inoltre l’integrazione con Microsoft Teams.
2) Ottimizzazione degli impianti di sensoristica per ridurre il numero di sensori presenti sulla macchina modellandone virtualmente alcuni sulla base delle informazioni disponibili o/e in seguito a test di caratterizzazione sperimentale e creazione di modelli di lavoro dedicati.
Contact: Prof. Matteo Golfarelli
Business Intelligence presso l’Istituto Nazionale di Fisica Nucleare
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’INFN cerca laureandi con possibilita’ di borsa di studio per lo sviluppo/evoluzione della propria infrastruttura di Business Intelligence. Le tecnologie coinvolte sono molteplici: Jasper, Tibco. Le tematiche vanno dallo sviluppo di reportistica, alla reportistica in tempo reale, all’utilizzo di sistemi NoSQL.
1) Progettazione e sviluppo di modelli dati multidimensionali orientati all’analisi visiva (dashboard e report dinamici) da produrre con strumenti di Business Analytics avanzati basati su un servizio cloud Microsoft Power BI riservato per INFN.
2) Progettazione e sviluppo su infrastruttura microservice-oriented (Spring based) di librerie e componenti java dedicati all’ampliamento dell’attuale architettura di ETL (Extract Transform and Load). L’obiettivo é intercettare, filtrare ed elaborare dati provenienti da sorgenti NoSQL( MongoDB) implementate secondo il modello microservizi.
3) Progettazione e realizzazione di modelli dati orientati all’analisi statistica con scopo predittivo, basati su dati di settore amministrativo dell’INFN (Gare e acquisti). Un possibile obiettivo é identificare le categorie di acquisto (prodotti e servizi) che nel tempo abbiano subito o meno maggiori fluttuazioni di mercato ed il loro impatto compleassivo sul budget dell’ente.
Contact: Prof. Matteo Golfarelli, Prof. Alessandra Lumini
Progettazione di una soluzione di Business Intelligence a supporto dei processi decisionali presso Agrintesa, Alex Baiardi, 2024
Supervisor: Dott. Enrico Gallinucci
Journey Automation - Digital Transformation in the Wellness Industry, Chiara Bertocchi, 2024
Supervisor: Dott. Enrico Gallinucci
Engineering Data Pipelines and Analytics with DataOps, Veronika Folin, 2024
Supervisor: Dott. Enrico Gallinucci
Implementazione di un Progetto Analitico nel settore Multiutility, Michele Mongardi, 2024
Supervisor: Dott. Enrico Gallinucci
Benchmarking Materialized Views of SQL-based Stream Processing Systems, Angelo Parrinello, 2024
Supervisor: Dott. Enrico Gallinucci
Design and Development of a Data Mart for the HR Department at Amadori, Federica Dell’Orletta, 2023
Supervisor: Dott. Enrico Gallinucci
Progettazione di una piattaforma Cloud per analisi predittive in ambito industria 4.0, Vlad Mattiussi, 2023
Supervisor: Dott. Enrico Gallinucci
Social Network Analysis: Architettura Streaming Big Data di Raccolta e Analisi Dati da Twitter, Andrea Giannini, 2022
Supervisor: Dott. Enrico Gallinucci
Pairs Trading - Progettazione, sviluppo e ottimizzazione di un modello di investimento basato sul Machine Learning, Riccardo Maldini, 2021
Supervisor: Dott. Enrico Gallinucci
MLOps - Standardizing the Machine Learning Workflow, Enrico Salvucci, 2021
Supervisor: Dott. Enrico Gallinucci
A text mining approach to materiality assessment, Marta Luffarelli, 2021
Supervisor: Dott. Enrico Gallinucci
Analisi delle strategie di modellazione dei dati su database NoSQL, Riccardo Salvatori, 2021
Supervisor: Dott. Enrico Gallinucci
Riconoscimento di frodi attraverso la modellazione del comportamento degli utenti, Alex Ravaglia, 2021
Supervisor: Dott. Enrico Gallinucci
Compressione e Vocalizzazione di Risultati Multidimensionali nel Paradigma OLAP, Tommaso Bombardi, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia
Pubblicazione di dati di traiettoria preservando il principio di non informatività, Maria Maddalena Mascellaro, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia
Un framework per l’analisi di Big Data con elevata eterogeneità all’interno di Multistore, Chiara Forresi, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Enrico Gallinucci
Anonimizzazione incrementale di dati di traiettoria, Luca Semprini, 2020
Supervisor: Dott. Enrico Gallinucci
GEAR: una piattaforma Big Data per l’elaborazione di stream di dati attraverso Machine Learning e Business Rules, Eugenio Cavina, 2020
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Alessandro Proscia
Progettazione e prototipazione di un sistema di Conversational BI, Rrok Gjinaj, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci
Progettazione e implementazione di un sistema di recommendation per video digitali, Davide Borficchia, 2020
Supervisor: Prof. Matteo Golfarelli
AutoML: A new methodology to automate data pre-processing pipelines, Joseph Giovanelli, 2020
Supervisor: Prof. Matteo Golfarelli
Manutenzione predittiva di attrezzature sportive: dall’analisi delle potenzialità alla prototipazione, Giulia Lucchi, 2020
Supervisor: Prof. Matteo Golfarelli
Clustering di traiettorie in ambito big data, Federico Naldini, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Progettazione e prototipazione di un data mart per l’analisi della fluttuazione di performance, Sofia Rossi, 2020
Supervisor: Prof. Matteo Golfarelli
Clustering di traiettorie su piattaforma big data, Mattia Oriani, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Progettazione e prototipazione di un framework per Conversational OLAP, Sara Sintoni, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Map-Matching su Piattaforma Big Data, Federico Vitali, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti, Anna Giulia Leoni, 2019
Supervisor: Dott. Enrico Gallinucci
Utilizzo di dati social per la deanonimizzazione di tracce GPS, Nicola Santolini, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci