Tensorflow Captcha

Progetto

Caso di studio

Avendo la necessità di collezionare alcune informazioni protette da CAPTCHA è stato realizzato questo progetto il quale partendo da una lista predefinita di informazioni si occupa di riempire in automatico tutti i campi richiesti compreso anche il campo di protezione captcha il quale viene tradotto in lettere e numeri attraverso un algoritmo di machine learning.

Tecnologie utilizzate

Per la realizzazione del progetto prima di tutto è stato necessario collezionare un cospicuo numero di immagini CAPTCHA (nell’ordine del migliaio) le quali durante il processo iniziale sono state catalogate suddividendo tutte le lettere e numeri riportati. Non è stato possibile utilizzare un semplice algoritmo di OCR in quanto la presenza di disturbi nelle immagini generate e la deformazione delle lettere generava una combinazione di testo inesatta o nulla.

Successivamente è stato generato un dataset attraverso tensorflow il quale è stato integrato nell’applicazione attraverso python 3. L’automazione della raccolta delle informazioni nelle pagine web è stata affidata alla libreria scrapy che ha permesso di gestire in modo ottimale la raccolta dei dati e l’interazione con essi.

 

Feedback

Il risultato ottenuto è stato che con un training di circa 1500 immagini si è ottenuto una buona percentuale di successo per la decodifica di ogni immagine. L'algoritmo ha difficolta a distinguere le lettere i e l allo stato attuale ma andando a rinforzare il dataset si potrebbe andare ad aumentare la percentuale di successo (già superiore al 50%).

Immagini

Dettagli

Anno

2019

Categorie
python, scrapy, tensorflow
Tecnologie utilizzate
machine-learning, web scraping