Vivaldi no permitirá que una máquina te mienta

El mundo de los navegadores web no se ha librado de la tendencia de integrar la funcionalidad LLM. Pero hay cuestiones fundamentales al respecto y Vivaldi las aborda.

ChatGPT salió a la luz pública hace un año y unos meses. Desde entonces, ha habido una tendencia creciente en muchos sectores a intentar utilizarlo para reemplazar algunas de las cosas que hace la gente, o para proporcionar una nueva forma de ayudar a las personas a encontrar respuestas a cualquier pregunta que puedan tener.

El mundo de los navegadores web no se ha librado de esta tendencia con múltiples ejemplos de navegadores web que integran la funcionalidad LLM (Large Language Model) de una forma u otra.

Sin embargo, incluso cuando lo hacen en nombre de la construcción del futuro, ninguno de ellos parece considerar el defecto evidente de estas características: los LLM en sí mismos simplemente no son adecuados como interlocutores de conversación, como motores de resúmenes, y sólo pueden ayudar con generar lenguaje con un importante riesgo de plagio.

Para comprender por qué todos estos son problemas fundamentales y no problemas que eventualmente se resolverán, debemos examinar la naturaleza misma de los LLM.

No queremos entrar aquí en una explicación muy extensa de las complejidades de los LLM. En lugar de ello, nos conformaremos con una explicación más breve. Puede que omita algunas advertencias, pero todo lo dicho aquí se aplica a los LLM genéricos más populares que existen.

Muchos expertos en el campo ya han hecho un excelente trabajo al respecto. Aquí hay una lectura interesante: “No eres un loro. Y un chatbot no es un humano“.

¿Qué son los LLM?

Los LLM son solo un modelo de cómo es un lenguaje escrito. Esa es una descripción matemática de cómo se ve. Se construye examinando una gran variedad de fuentes y se centra en describir qué palabra es más probable que siga a un gran conjunto de otras palabras. Se agrega un poco de aleatoriedad al sistema para hacerlo más interesante y luego la salida se filtra mediante un segundo modelo que determina qué tan «agradable» suena esa salida. En varios casos, este modelo de segunda etapa se hizo haciendo que muchas personas (mal pagadas) observaran lo que salía de la primera etapa y eligieran si les gustaba o no y si parecía plausible.

Esto tiene dos cuestiones fundamentales:

  • Violaciones de derechos de autor y privacidad

    Para tener una buena idea de qué palabra es probable que siga a un conjunto de palabras, es necesario observar una lote de texto. Cuanto más texto, mejor, ya que cada fragmento de texto permite modificar el modelo para que sea una representación más precisa de un idioma. Además, gran parte del texto que contiene debe ser relativamente reciente para reflejar el uso actual del idioma.

    Esto significa que existe un tremendo incentivo para consumir texto de todas las fuentes recientes disponibles, desde las redes sociales hasta artículos y libros. Desafortunadamente, el hecho de que dicho texto se incluya en el modelo significa que es posible hacer que genere el mismo texto palabra por palabra. Esto sucede si, para una secuencia de entrada determinada, no hay mejor opción que regurgitar este texto original. Como resultado, estos modelos en algunos casos simplemente repetirán material protegido por derechos de autor, lo que dará lugar al plagio.

    De manera similar, la gran cantidad de texto proveniente de las redes sociales y otras fuentes proporcionadas por los usuarios bien puede contener información confidencial y privada que también puede regurgitarse. Algunas personas inteligentes han encontrado formas de desencadenar este tipo de comportamiento, y es poco probable que sea posible protegerse completamente contra él. Siendo claramente conscientes del riesgo que representa la exposición de información privada, nunca nos ha entusiasmado la idea de que posiblemente se incluya en esos modelos.

  • Mentiras que suenan plausibles

    Dado que el texto con el que se construye un LLM se origina en gran parte de Internet en general, eso significa que gran parte es basura completa. Eso va desde una mera prosa mal escrita hasta errores fácticos y contenido realmente ofensivo. Los primeros experimentos con esta tecnología dieron como resultado chatbots que rápidamente comenzaron a escupir lenguaje ofensivo, lo que demuestra que no son aptos para su propósito. Esta es la razón por la que los LLM modernos están moderados por una segunda etapa que filtra su producción.

    Desafortunadamente, como se escribió anteriormente, esta segunda etapa la construyen personas que califican el resultado de la primera etapa. Para que esto sea útil, necesitan examinar enormes cantidades de resultados. Incluso las personas con más conocimientos del mundo no podrían esperar comprobar la exactitud de todo y, aunque pudieran, no podrían conocer todos los resultados que se producirán. Para ellos, lo único que hace el filtro es ayudar a marcar la pauta. Todo esto lleva a favorecer el tipo de resultado que a la gente le gusta ver, que es un texto que suena seguro, independientemente de su precisión. En su mayor parte tendrán razón en hechos ampliamente conocidos, pero en lo demás, es una apuesta. La mayoría de las veces, simplemente dirán una mentira de nivel político.

Lo correcto a hacer

Entonces, como hemos visto, los LLM son esencialmente máquinas mentirosas que suenan confiadas y tienen una tendencia a revelar ocasionalmente datos privados o plagiar trabajos existentes. Mientras hacen esto, también usan grandes cantidades de energía y están felices de usar todas las GPU que puedan lanzarles, lo cual es un problema que hemos visto antes en el campo de las criptomonedas.

Como tal, no parece correcto incluir una solución de este tipo en Vivaldi. Hay suficiente información errónea circulando por ahí como para correr el riesgo de añadir más al montón. No utilizaremos un LLM para agregar un chatbot, una solución de resumen o un motor de sugerencias para completar formularios hasta que estén disponibles formas más rigurosas de hacer esas cosas.

Aún así, Vivaldi se trata de opciones y continuaremos haciendo posible que las personas utilicen cualquier LLM que deseen en línea.

A pesar de todo esto, creemos que el campo del aprendizaje automático en general sigue siendo apasionante y puede dar lugar a funciones que sean realmente útiles. En el futuro, esperamos que nos permita brindar buenas funciones que respeten la privacidad a nuestros usuarios con un enfoque en mejorar la capacidad de descubrimiento y la accesibilidad.

Seguiremos esforzándonos por brindar una experiencia de navegación ética y con funciones.


Source link

About David Lopez

Check Also

Una mejor seguridad web significa menos comodidad, por ahora

La web hace nuestra vida más cómoda. Podemos pedir una camiseta o una pizza con …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *