U okviru diplomskog rada potrebno je napraviti pregled trenutno aktualnih metoda strojnog učenja za analizu tekstualnih dokumenata. Izgraditi skup podataka dohvaćanjem korisničkih upita iz različitih izvora te izgraditi modele nadziranim i nenadziranim učenjem koji omogućuju grupiranje i klasifikaciju dokumenata. Model implementirati u odgovarajuću informatičku platformu (npr. Apache Hadoop).