En mayo, OpenAI anunció que estaba formando un nuevo Comité de Seguridad y Protección (SSC) para evaluar sus procesos y salvaguardas actuales y hacer recomendaciones sobre los cambios a realizar. Cuando se anunció, la compañía dijo que la SSC realizaría evaluaciones durante 90 días y luego presentaría los hallazgos a la junta. Ahora que el proceso está completo, OpenAI comparte cinco cambios que realizará en función de la evaluación del SSC. Primero, el SSC se convertirá en un comité de supervisión independiente en la junta directiva de OpenAI para continuar brindando una gobernanza de seguridad independiente. El comité de la junta estará dirigido por Zico Kolter, director del departamento de aprendizaje automático de la Facultad de Ciencias de la Computación de la Universidad Carnegie Mellon. Otros miembros incluirán a Adam D’Angelo, cofundador y director ejecutivo de Quora; Paul Nakasone, general retirado del ejército estadounidense; y Nicole Seligman, ex vicepresidenta ejecutiva y asesora general de Sony Corporation. El Consejo del SSC ya revisó la versión de seguridad de o1 y continuará revisando versiones futuras tanto durante el desarrollo como después del lanzamiento. También supervisará los lanzamientos de modelos y tendrá el poder de retrasar los lanzamientos con problemas de seguridad hasta que esos problemas se hayan abordado lo suficiente. En segundo lugar, el SSC trabajará para avanzar en las medidas de seguridad de la empresa ampliando la segmentación de la información interna, agregando personal a los equipos de operaciones de seguridad las 24 horas y continuando invirtiendo en cosas que mejoren la seguridad de la infraestructura de investigación y los productos de la empresa. “La ciberseguridad es un componente crítico de la seguridad de la IA y hemos sido líderes en el establecimiento de las medidas de seguridad necesarias para proteger la IA avanzada. Continuaremos adoptando un enfoque basado en el riesgo para nuestras medidas de seguridad y evolucionaremos nuestro enfoque a medida que cambien el modelo de amenaza y los perfiles de riesgo de nuestros modelos”, escribió OpenAI en una publicación de blog. La tercera recomendación es que la empresa sea más transparente sobre el trabajo que realiza. Ya produce hojas de sistema que detallan las capacidades y riesgos de los modelos, y continuará evaluando nuevas formas de compartir y explicar el trabajo de seguridad. Sus hojas de sistema para las versiones preliminares de GPT-4o y o1 incluyeron hallazgos del equipo rojo externo, hallazgos de evaluaciones de riesgos fronterizos dentro del Marco de Preparación y una descripción general de las mitigaciones de riesgos integradas en los sistemas. En cuarto lugar, explorará nuevas formas de probar sus sistemas de forma independiente colaborando con múltiples empresas externas. Por ejemplo, OpenAI está creando nuevas asociaciones con organizaciones de seguridad y laboratorios no gubernamentales para realizar evaluaciones de seguridad modelo. También está trabajando con agencias gubernamentales como Los Alamos National Labs para estudiar cómo se puede utilizar la inteligencia artificial de forma segura en laboratorios para avanzar en la investigación biocientífica. OpenAI también se asoció recientemente con los Institutos de Seguridad de la IA de EE. UU. y el Reino Unido para trabajar en la investigación de los riesgos emergentes para la seguridad de la IA. La recomendación final del SSC es unificar los marcos de seguridad de la empresa para el desarrollo y seguimiento de modelos. “Garantizar la seguridad de nuestros modelos implica el trabajo de muchos equipos dentro de la organización. A medida que hemos crecido y nuestro trabajo se ha vuelto más complejo, estamos evolucionando nuestros procesos y prácticas de lanzamiento de modelos para establecer un marco integrado de seguridad y protección con criterios de éxito claramente definidos para los lanzamientos de modelos”, dijo OpenAI. El marco se basará en evaluaciones de riesgos realizadas por la CDS y evolucionará a medida que aumenten la complejidad y los riesgos. Para facilitar este proceso, la empresa ya ha reorganizado sus equipos de investigación, seguridad y políticas para mejorar la colaboración.
Check Also
Correcciones adicionales en el panel: instantánea del navegador Vivaldi 3491.4
En la instantánea de hoy hay mejoras adicionales en el experimento del panel de la …