OpenAI ha implementado un sistema de seguridad multinivel para limitar la capacidad de DALL·E 3 de generar imágenes potencialmente perjudiciales, incluyendo contenido violento, para adultos o de odio. Los controles de seguridad se aplican tanto a las instrucciones proporcionadas por los usuarios como a las imágenes resultantes antes de que se presenten a los usuarios. Además, OpenAI trabajó con usuarios tempranos y expertos en red teaming (pruebas de seguridad desde una perspectiva adversaria) para identificar y abordar las brechas en la cobertura de los sistemas de seguridad que surgieron con las nuevas capacidades del modelo. Por ejemplo, los comentarios ayudaron a OpenAI a identificar casos límite para la generación de contenido gráfico, como la imaginería sexual, y poner a prueba la capacidad del modelo para generar imágenes sorprendentemente realistas.
Como parte del trabajo realizado para preparar DALL·E 3 para su despliegue, OpenAI tomó medidas para limitar la probabilidad de que el modelo genere contenido que imite el estilo de artistas contemporáneos, imágenes de figuras públicas y para mejorar la representación demográfica en las imágenes generadas. Para leer más sobre el trabajo realizado para preparar DALL·E 3 para su amplio despliegue, consulta la tarjeta de sistema de DALL·E 3.
La retroalimentación de los usuarios ayudará a asegurar que OpenAI continúe mejorando. Los usuarios de ChatGPT pueden compartir sus comentarios con el equipo de investigación de OpenAI utilizando el icono de bandera para informar sobre salidas inseguras o salidas que no reflejen con precisión la indicación que le dieron a ChatGPT. Escuchar a una comunidad diversa y amplia de usuarios y comprender el mundo real es crucial para OpenAI en su misión de desarrollar y desplegar IA de manera responsable.
OpenAI está investigando y evaluando una versión inicial de un clasificador de procedencia, una nueva herramienta interna que puede ayudar a identificar si una imagen fue generada por DALL·E 3 o no. En las primeras evaluaciones internas, tiene una precisión de más del 99% al identificar si una imagen fue generada por DALL·E cuando la imagen no ha sido modificada. Se mantiene con una precisión de más del 95% cuando la imagen ha sido sujeta a modificaciones comunes, como recortes, redimensionamientos, compresión JPEG, o cuando textos o recortes de imágenes reales se superponen en pequeñas porciones de la imagen generada. A pesar de estos resultados sólidos en las pruebas internas, el clasificador solo puede decirnos que una imagen fue probablemente generada por DALL·E, y aún no nos permite llegar a conclusiones definitivas. Este clasificador de procedencia podría convertirse en parte de una gama de técnicas para ayudar a las personas a entender si el contenido auditivo o visual es generado por IA. Es un desafío que requerirá colaboración a lo largo de el ecosistema de la IA, incluyendo las plataformas que distribuyen contenido a los usuarios. OpenAI espera aprender mucho sobre cómo funciona esta herramienta y dónde podría ser más útil, y mejorar su enfoque con el tiempo.