Buenas, ya he trabajado en casos así , escraping y leer pdf con ocr , si el texto es muy difícil de interpretar se necesitaría de una IA(inteligencia artificial), pero lo si es texto común con un ocr se puede lograr.
Lo programaría en python , si no se necesita una IA , no tiene costo extra, si se usa una el costo es de 1000 paginas * 1.5(dólares) es un servicio de aws, le creo su cuenta y usted solo pagaría ahí .
Tengo bastante experiencia en desarrollos como ese, si te interesa mi propuesta, escríbeme.