Caso di studio
Avendo la necessità di collezionare alcune informazioni protette da CAPTCHA è stato realizzato questo progetto il quale partendo da una lista predefinita di informazioni si occupa di riempire in automatico tutti i campi richiesti compreso anche il campo di protezione captcha il quale viene tradotto in lettere e numeri attraverso un algoritmo di machine learning.
Tecnologie utilizzate
Per la realizzazione del progetto prima di tutto è stato necessario collezionare un cospicuo numero di immagini CAPTCHA (nell’ordine del migliaio) le quali durante il processo iniziale sono state catalogate suddividendo tutte le lettere e numeri riportati. Non è stato possibile utilizzare un semplice algoritmo di OCR in quanto la presenza di disturbi nelle immagini generate e la deformazione delle lettere generava una combinazione di testo inesatta o nulla.
Successivamente è stato generato un dataset attraverso tensorflow il quale è stato integrato nell’applicazione attraverso python 3. L’automazione della raccolta delle informazioni nelle pagine web è stata affidata alla libreria scrapy che ha permesso di gestire in modo ottimale la raccolta dei dati e l’interazione con essi.