Che cos’è l’Information Retrieval e di cosa si occupa

Che cos’è l’Information Retrieval e di cosa si occupa

L’information Retrival (o IR) è la disciplina che si occupa delle tecniche atte a soddisfare i bisogni informativi delle persone, attraverso tecniche di memorizzazione, rappresentazione e organizzazione dei documenti contenenti le informazioni. L’Information Retrieval inoltre è un campo molto interessante ed ampio, poiché coinvolge molte discipline: dalla psicologia all’informatica, la filosofia e il design o la semiotica.

L’IR si occupa di rappresentazione, immagazzinamento, organizzazione e accesso alle informazioni che possono essere presentate sotto svariate forme come; pagine web, cataloghi online, oggetti multimediali e record di dati strutturati o semi-strutturati.

Inizialmente l’IR aveva come scopo quello di creare degli indici per i testi all’interno di una collezione/catalogo, mentre al giorno d’oggi si occupa anche di modellazione, ricerca web, classificazione testi, architetture di sistema, interfacce utente, visualizzazione dati, filtraggio e lingue.

L’IR può essere quindi studiata attraverso due tipi di approcci differenti:
1. Computer centered – dove il lavoro svolto dall’IR consiste nel creare indici efficenti, processare query e creare degli algoritmi di ranking per i risultati di una ricerca.
2. Human centered – l’IR dal punto di vista del comportamento degli utenti e di come essi fruiscono delle informazioni date al fine di migliorare i sistemi.

Gli utenti nei moderni sistemi di IR, necessitano di un accesso alle informazioni di complessità variabile. Nei casi più semplici gli utenti stanno cercando informazioni di tipo non critico, ad esempio per svago o per curiosità personale.

Può invece capitare che determinati utenti utilizzino questi sistemi per poter reperire informazioni di importanza elevata come istruzioni per eseguire determinati compiti, oppure per necessità impellenti o con criticità elevata (ad esempio la documentazione per sistemi informativi in ambito medico).

Prendendo quindi una richiesta (query) da parte dell’utente, il sistema di IR deve essere in grado di restituire le informazioni più utili e rilevanti.


Il più delle volte il sistema di IR deve riuscire a interpretare le richieste dell’utente estrapolando agenti coinvolti nell’informazione come la sintassi e la semantica, al fine di riuscire a proporre la soluzione migliore.

Quindi un altro importante paradigma per l’IR è l’utilità; riuscire a fornire all’utente quanti più documenti attinenti alla sua richiesta e scartare quelli che non lo sono.
La difficoltà non è solo nell’estrarre le informazioni dai documenti, ma nel decretare la “rilevanza” dei concetti in essi contenuti, questo poiché la rilevanza è un concetto soggettivo.

Ad esempio:
si pensi a una parola chiave come “basso” e a due utenti che vogliono fare una ricerca differenziata nei contenuti e nei concetti di questa parola.
Il primo utente non è molto alto e scrivendo nel motore di ricerca la parola “basso” vuole trovare le statistiche delle persone di età simile, peso e altezza per poter fare un confronto. Il secondo utente invece è un musicista e vuole comprare un basso elettrico.


Come fornire una rilevanza diversa per ognuno dei due utenti utilizzando una stessa parola ma con due significati diversi?


Si approfondiranno più avanti questi nuovi aspetti dei motori di ricerca quando si parlerà di algoritmi di machine learning per la classificazione della conoscenza.