He colaborado muy activamente con el grupo de Visión Artificial de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la universidad de Alcalá de Henares, Madrid, España.
La problemática que comentas se enmarca dentro de lo amplísimo que es hablar de "deep learning" y "pattern Maching".
Reconocer objetos sencillos tipo "un coche, una silla, un gato, un perro, una persona (bien iluminada y centrada), incluso una matrícula de coche y reconocer los caracteres, etc, etc", con la tecnología actual es ya relativamente sencillo.
Ahora bien escenarios complejos cómo el que describes de "sexo explícito o no" pueden complicarse, hay que bajar al detalle y por ejemplo detectar si se visiona "un culo, un pene, acto sexual, etc", bien,se me antoja que podrían aparecer muchos "falsos positivos" que seguramente se deberían tratar de manera individualizada.
En general, podemos hablar de una fiabilidad cercana al 80%, ¿qué quiere decir esto? quiere decir que con un sistema de deep learning bien modelado y entrenado ,se la pasa una imagen y el resultado que nos da es "contiene escenas de sexo", pues en un 80% de probabilidad será así.
NO se deben manipular las imágenes originales, se trataría de por cada imagen decir Sí/No contiene escenas de sexo.
La arquitectura de la solución que yo propondría es del tipo PaaS (Platform as a Service).