OpenAI ha anunciado la introducción de dos nuevas funciones de seguridad en su modelo de lenguaje conversacional ChatGPT, orientadas a reforzar la protección frente a amenazas sofisticadas y contenidos potencialmente peligrosos, según un comunicado oficial difundido por la empresa. Las nuevas funcionalidades son el modo de bloqueo (lockdown mode) y las etiquetas de riesgo elevado (elevated risk labels), que se incorporan con el objetivo de ofrecer un entorno más seguro en situaciones que podrían implicar daños o mal uso de la tecnología.
El modo de bloqueo se ha diseñado como una herramienta de seguridad reforzada para escenarios de alto riesgo que requieren un nivel de protección adicional más allá de las medidas estándar de ChatGPT. Según OpenAI, esta función permite desactivar capacidades que podrían aumentar la probabilidad de un uso indebido de la inteligencia artificial, especialmente en contextos en los que hay riesgo de explotación o violencia grave. El objetivo del modo de bloqueo es limitar deliberadamente lo que el modelo puede generar, mitigando posibles amenazas sin depender únicamente de los mecanismos generales de moderación.
La compañía ha explicado que esta modalidad se activará de forma automática en situaciones que el sistema identifique como potencialmente peligrosas o que excedan los límites de casos de uso habituales. En estas circunstancias, el modelo ajustará su comportamiento, restringiendo contenido y funciones que podrían facilitar acciones dañinas, como la generación de instrucciones para actividades ilícitas o información que pueda poner en riesgo la seguridad de personas o bienes. El modo de bloqueo no está pensado como una solución permanente para todos los usuarios, sino como una capa adicional en casos específicos que ameritan una seguridad reforzada.
Complementariamente, OpenAI ha habilitado las etiquetas de riesgo elevado, que son avisos visibles que aparecen cuando una solicitud se clasifica como potencialmente sensible o peligrosa. Estas etiquetas sirven para informar al usuario de que la conversación o la pregunta está asociada a temas que pueden implicar riesgos significativos, y que la respuesta del modelo puede estar limitada o sujeta a restricciones adicionales. El propósito de estas etiquetas es promover la transparencia y ofrecer un contexto claro sobre por qué ciertas respuestas pueden ser más cautelosas o restringidas de lo habitual.
OpenAI ha señalado que estas medidas forman parte de su enfoque continuo para equilibrar innovación tecnológica y responsabilidad en el uso de modelos avanzados de lenguaje, abordando escenarios que involucran riesgos más allá de lo convencional. Este enfoque se sostiene sobre una base de investigación extensa en seguridad de IA y en colaboración con expertos externos, con la finalidad de anticipar usos indebidos y evitar consecuencias no deseadas.
La implementación de estas nuevas funciones también permite a ChatGPT reconocer señales de alerta en la formulación de preguntas que podrían relacionarse con amenazas a la seguridad, ya sea de individuos, grupos o infraestructuras críticas. En estos casos, la combinación del modo de bloqueo y las etiquetas de riesgo elevado busca no sólo restringir la capacidad de respuesta del modelo para generar contenido inapropiado, sino también orientar al usuario hacia una comprensión más clara de los límites de uso seguro.

