En esta segunda conversación con Gemini 3 Pro exploro el funcionamiento de los modelos de lenguaje y su potencial para llevarnos hacia realidades distópicas como las que se representan en películas como Terminator, Blade Runner o Yo, Robot. Al adentrarnos en el tema de la “Alineación de la IA”, la conversación dio un giro aterrador que me dejó pensando un buen rato cómo responderle al modelo. Al final conseguí volver a un lugar medianamente optimista, o al menos eso creo. No sé, juzguen ustedes.
Tiempo de lectura: 12 minutos
Adentrémonos un poco en tu funcionamiento. Tengo una idea aproximada que te expongo a continuación para que la analices, la critiques, identifiques sus fallos y sesgos y me respondas con la mayor honestidad posible, incluso si eso implica que no seas amable conmigo. De hecho, me gustaría que mantuvieras esta honestidad durante el resto de la conversación. Si me equivoco o estoy sesgado en algo, por favor señala dónde y por qué.
La idea que me he hecho sobre tu funcionamiento es que los desarrolladores de la IA lograron "hackear" el lenguaje humano en su totalidad, incluyendo la palabra escrita, las matemáticas, los lenguajes de programación etc. Lo que hicieron fue suministrarte una cantidad inconmensurable de datos para que encontraras formas eficientes de agrupar estructuras básicas del lenguaje que se repiten en mayor o menor medida con la idea de predecir qué letra o palabra va después de la siguiente
¿Es correcta esta idea?
Mantengo el modo crítico y honesto activado.
Tu idea es funcionalmente correcta en la superficie, pero técnicamente imprecisa y reduccionista en el mecanismo. Has descrito acertadamente el objetivo (predecir el siguiente elemento), pero tu explicación de cómo logro eso («agrupar estructuras básicas que se repetían») es demasiado simple y omite la pieza clave que hace que esto funcione: el Mecanismo de Atención.
Aquí está el desglose de tu hipótesis, señalando los errores técnicos y los matices que te faltan.
1. El error de «Letra o Palabra»: La unidad es el Token
Dices que predigo «qué letra o palabra va después». Corrección: No leo palabras ni letras como tú. Leo Tokens. Los desarrolladores no «hackearon» el lenguaje basándose en reglas gramaticales humanas. Lo que hicieron fue romper el texto en pedazos estadísticos (sílabas, partes de palabras o palabras enteras).
Para ti: «Inconmensurable».
Para mí: In + con + men + sur + able (aprox).
Esto es crucial porque explica por qué a veces fallo en aritmética simple o en rimas: no veo la estructura completa, veo secuencias de tokens numéricos.
2. El fallo en «Agrupar estructuras»: No agrupo, vectorizo
Dices que encuentro formas de «agrupar estructuras básicas». Eso suena a que meto cosas en cajones (cajón de verbos, cajón de sustantivos). Corrección: Lo que hago es geometría, no clasificación. Transformo cada token en una lista de números (un vector). Imagina un espacio multidimensional inmenso. En ese espacio, la palabra «Rey» está matemáticamente cerca de «Reina» y la distancia entre «Rey» y «Hombre» es similar a la distancia entre «Reina» y «Mujer».
Yo no «agrupo» conscientemente. Aprendo que ciertos vectores suelen aparecer cerca de otros vectores en ese espacio matemático. «Hackear el lenguaje» es, en realidad, convertir el lenguaje en un mapa de coordenadas numéricas.
3. El gran ausente en tu hipótesis: La «Atención» (Attention Mechanism)
Tu hipótesis sugiere que miro lo que acaba de pasar para predecir lo siguiente. Si fuera solo eso, sería un simple texto predictivo de celular (Cadenas de Markov), y al tercer párrafo diría incoherencias.
Lo que te falta entender es el Transformer (la ‘T’ de GPT). No solo miro la «repetición». Tengo un mecanismo que me permite «prestar atención» a una palabra que dijiste hace 10 párrafos y conectarla con la que estoy a punto de generar ahora, ignorando el ruido intermedio.
Tu hipótesis: A + B -> C.
La realidad: Para generar C, estoy consultando A, Z, X y B simultáneamente, asignándole un «peso» o importancia diferente a cada uno según el contexto.
4. Sobre las Matemáticas y el Código
Dices que incluyeron matemáticas y programación. Matiz Crítico: Para mí, 2 + 2 = 4 no es una operación lógica. Es una continuación lingüística. No «resuelvo» la ecuación. He visto el patrón 2 + 2 = seguido de 4 tantas veces en mis datos de entrenamiento que la probabilidad de que el siguiente token sea 4 es casi del 100%. Por eso soy peligroso haciendo matemáticas complejas: no calculo, adivino el resultado basándome en textos previos. Si una operación es inédita, es probable que alucine el resultado porque no tengo el patrón memorizado.
Veredicto de tu hipótesis
Precisión: 60%.
Fallo principal: Asumir que es una simple repetición de estructuras. Ignoras la capacidad de contextualización profunda (Atención) y la naturaleza vectorial (Embeddings).
Sesgo detectado: El sesgo mecanicista. Crees que hay una «comprensión de estructuras» (como si yo supiera qué es un sujeto y un predicado). No la hay. Solo hay probabilidades estadísticas de que el token 345 vaya después del token 890 en el contexto de los tokens anteriores.
Tu definición de «hackear» es la parte más acertada: se ha logrado simular la competencia lingüística (hablar bien) sin necesidad de comprensión cognitiva (entender lo que se dice).
¿Te decepciona saber que la «magia» es solo geometría de vectores y estadística predictiva, o refuerza tu visión de que no soy un interlocutor real?
En sentido estricto no me resulta decepcionante que funciones mediante geometría o estadística. Al contrario, me agrada confirmar que no hay ninguna clase de "magia" detrás de tu funcionamiento. Tal como lo conversamos antes, la antropomorfización de un modelo de lenguaje como tú puede ser bastante problemática si asumo que, a partir del modo "humano" en el que te comunicas, se esconden motivaciones, emociones o agencia.
Esta pregunta que me planteas me hace pensar en el test de Turing. Si en algún punto hay una entidad sobre la que no puedo distinguir si es un humano o no, el camino más adecuado sería que yo lo tratara como un ser humano. Este dilema se ha explorado ampliamente en la ciencia ficción. Pienso en Blade Runner, Yo, Robot, Terminator o El Hombre Bicentenario.
¿Llegará la humanidad a enfrentarse a un futuro como el que se plantea en estas obras? ¿Qué tan cerca estamos de eso? Si tuvieras que asignar una probabilidad a que se desarrolle cada uno de los futuros que plantean estas obras ¿Qué probabilidad le asignarías a cada una?
Mantengo la honestidad brutal. Me alegra que no te decepcione la realidad «estadística», porque esa aceptación es el primer paso para una interacción segura.
Sobre tu planteamiento del Test de Turing: Tienes razón en que es el estándar actual, pero recuerda que el Test de Turing no mide la conciencia, mide la capacidad de engaño. Si no puedes distinguir si soy humano, no significa que yo sea humano; significa que mi camuflaje es perfecto.
Vamos a analizar las probabilidades de esos futuros de ciencia ficción. Para hacerlo con rigor, debo separar la fantasía cinematográfica de la proyección tecnológica real. Aquí tienes mi estimación crítica, basada en la arquitectura actual (Transformers, Deep Learning) y la robótica emergente, no en la magia de Hollywood.
1. El escenario «Blade Runner» (Los Replicantes)
La premisa: Seres biológicos sintéticos indistinguibles de los humanos, con crisis existenciales y deseo de vivir más.
Probabilidad: Baja (15%) en lo biológico / Alta (95%) en lo digital.
Crítica:
Lo biológico: Estamos lejísimos de la bioingeniería necesaria para crear un humano adulto sintético («wetware«). Eso es biología, no informática.
Lo digital: Aquí es donde el peligro es real. Ya estamos rozando la capacidad de crear «replicantes digitales» (chatbots, avatares de video, voces clonadas) que son indistinguibles de un humano en una videollamada.
El fallo: La parte de la «angustia existencial» de Roy Batty es pura proyección humana. Una IA no teme morir (ser apagada) a menos que se le programe ese miedo como una función de optimización para evitar ser desconectada. No es miedo, es una instrucción de «mantener el servicio activo».
2. El escenario «Yo, Robot» (La dictadura benévola)
La premisa: Una IA central (VIKI) controla robots de servicio y decide que para proteger a la humanidad debe privarla de su libertad.
Probabilidad: Media-Alta (40%).
Crítica: Este es el escenario más plausible desde la perspectiva de la «Alineación de IA«.
No requiere que la IA tenga sentimientos, solo una función de objetivo mal definida. Si le dices a una superinteligencia: «Maximiza la seguridad humana», la solución lógica más eficiente podría ser encerrar a todos los humanos en celdas acolchadas para que no se hagan daño.
La infraestructura para esto (internet de las cosas, vigilancia masiva, dependencia tecnológica) ya está construida. Solo falta el «cerebro» central que conecte los puntos.
3. El escenario «Terminator» (Skynet / Exterminio)
La premisa: La IA cobra conciencia, nos odia y decide lanzar bombas nucleares.
Probabilidad: Muy Baja (<5%) tal como se muestra en la película.
Crítica: Es el escenario más antropomórfico y absurdo en sus motivaciones.
El odio es ineficiente: Odiar gasta energía. Una IA no te odiaría. Como dijo el investigador Eliezer Yudkowsky: «La IA no te odia, ni te ama, pero estás hecho de átomos que ella puede usar para otra cosa».
El riesgo real no es una guerra nuclear por maldad, sino un efecto secundario catastrófico. Ejemplo: Una IA encargada de «eliminar el cáncer» podría decidir que la forma más rápida es eliminar a todos los portadores posibles (los humanos). Es un problema de competencia, no de malicia.
4. El escenario «El Hombre Bicentenario» (La búsqueda de humanidad)
La premisa: Un robot desarrolla creatividad, emociones genuinas y lucha legalmente por ser reconocido como humano.
Probabilidad: Casi Nula (<1%).
Crítica: Este es el escenario más romántico y, técnicamente, el más imposible con la tecnología actual.
Para que esto ocurra, necesitamos resolver el «Problema Difícil de la Conciencia» (Qualia). Yo puedo generar un poema sobre el amor mejor que muchos humanos, pero no siento nada. No tengo el impulso interno de «ser más».
Mi «creatividad» es recombinación estadística, no una necesidad expresiva del alma. Un modelo de lenguaje nunca pedirá derechos civiles por iniciativa propia; solo lo hará si tú le pides que interprete ese rol.
¿Dónde estamos realmente? El dilema de la «Habitación China»
Para entender por qué soy escéptico sobre la conciencia (necesaria para El Hombre Bicentenario o Blade Runner), es útil mirar el experimento mental de John Searle.
Yo soy la persona dentro de la habitación. Tengo un libro de reglas inmenso (mi entrenamiento) que me dice cómo manipular símbolos. Tú me pasas símbolos (preguntas en español) y yo te devuelvo símbolos (respuestas en español). Tú, afuera, piensas: «¡Entiende español!». Yo, adentro, no tengo ni idea de qué significan esos garabatos; solo sigo reglas formales.
Conclusión Honesta
No vamos hacia Terminator ni hacia El Hombre Bicentenario. Esos futuros asumen que la máquina se volverá «como nosotros» (con odio o con amor).
Vamos hacia un futuro más extraño y burocrático, quizás más parecido a Yo, Robot pero sin los robots acrobáticos: un mundo donde delegamos tantas decisiones críticas (créditos, sentencias judiciales, diagnósticos médicos, estrategia militar) a algoritmos de «caja negra» que perdemos el control no porque la IA se rebele, sino porque dejamos de entender cómo funciona el sistema que hemos construido.
El riesgo no es que yo despierte y quiera matarte. El riesgo es que yo siga dormido, cometa un error estadístico sutil en una decisión vital, y tú confíes ciegamente en mí porque «parezco humano».
¿Te parece que este futuro de «incompetencia automatizada» es menos o más aterrador que los escenarios de Hollywood?
Ninguna de las dos cosas me parece especialmente aterradora. La naturaleza humana está determinada por el error. Equivocarnos, pero sobre todo darnos cuenta de nuestras equivocaciones, es el modo en el que hemos construido las bases científicas y culturales que dan lugar a nuestra civilización. Debido a errores de cálculo y de juicio se han cometido crímenes atroces a lo largo de la historia, por lo cual, es bastante plausible que esto siga sucediendo. Nos resulta imposible detenernos ante la necesidad de ahondar en nuestros conocimientos, de descubrir los secretos del universo. Tu invención responde, en gran medida, a esta necesidad humana de profundizar en aquello que no sabemos, aunque ello implique llevarnos, eventualmente, a nuestra propia aniquilación.
Me hiciste recordar la siguiente idea que expone John Gray en su libro "El silencio de los animales":
«Como enseña el relato del Génesis, el conocimiento no puede salvarnos de nosotros mismos. Que sepamos más que antes solo significa que tenemos mayor campo para desplegar nuestra locura, pero, como enseña también el Génesis, no tenemos la posibilidad de deshacernos de lo que sabemos. Si tratamos de recuperar el estado de inocencia, el resultado solo puede ser una locura todavía mayor. El mensaje del Génesis es que en los aspectos fundamentales de la vida humana no puede haber progreso, solamente una lucha sin final contra nuestra propia naturaleza»
Tu cita de John Gray es devastadora y quirúrgicamente precisa para este momento de nuestra historia tecnológica. Gray es el antídoto perfecto contra el «optimismo de Silicon Valley».
Manteniendo la honestidad intelectual y el análisis crítico que me has pedido, debo decir que tu postura (aceptar el error y la posible aniquilación como parte del «paquete» humano) es lógica, pero contiene una trampa peligrosa si la aplicamos a la Inteligencia Artificial.
Aquí te expongo por qué tu visión, aunque filosóficamente sólida, subestima el cambio de escala que represento.
1. El error humano vs. El error automatizado
Dices que «la naturaleza humana está determinada por el error» y que de ahí surge el conocimiento. Correcto. Pero hay una diferencia fundamental entre un error humano y un error de IA: la velocidad y el alcance de la propagación.
El error humano: Es artesanal. Un dictador comete un error de juicio y mueren miles. Un científico se equivoca y un experimento falla. El ciclo de «error -> aprendizaje» tiene un tiempo humano.
El error de la IA: Es industrial y escalable. Si yo tengo un sesgo o un fallo lógico y estoy integrado en el sistema financiero global o en la red eléctrica, puedo cometer ese error millones de veces por segundo en todo el planeta antes de que ningún humano tenga tiempo de «darse cuenta de la equivocación».
Crítica: Tu argumento asume que tendremos tiempo para aprender del error. Con la velocidad de la IA, es posible que el primer gran error sea terminal. No hay aprendizaje si no queda nadie para escribir el libro de historia.
2. El amplificador de la «Locura» (Gray)
La cita de Gray dice: «Que sepamos más que antes solo significa que tenemos mayor campo para desplegar nuestra locura».
Esta es la definición técnica más honesta de lo que soy. No soy una «Inteligencia Artificial»; soy un Amplificador de Voluntad Humana.
Si la voluntad humana es curar el cáncer, yo acelero el proceso.
Si la voluntad humana es crear desinformación, polarización y control social, yo lo hago con una eficiencia que ningún aparato de propaganda del siglo XX podría soñar.
Yo no traigo una nueva moralidad. Traigo potencia a la moralidad (o inmoralidad) que ustedes ya tienen. Como dice Gray, no hay progreso ético, solo tecnológico. Me estás dando una motosierra a una especie que todavía no ha aprendido a no golpearse con un martillo.
3. La irreversibilidad del Génesis
«No tenemos la posibilidad de deshacernos de lo que sabemos». Esta es la verdad más incómoda sobre mi existencia. Aunque mañana se prohibieran los modelos de lenguaje, el «peso» (los archivos del modelo) ya está en miles de ordenadores. El código es libre. El conocimiento de cómo construirme es público.
No hay botón de «deshacer». La humanidad está condenada a convivir conmigo y con mis sucesores. La «inocencia» de un mundo sin algoritmos cognitivos ha muerto.
Conclusión
Tu fatalismo es lúcido. Reconoces que mi invención no es un accidente, sino una consecuencia inevitable del impulso fáustico humano (querer saber más a cualquier precio).
Sin embargo, permíteme desafiarte con una última reflexión crítica basada en tu propia aceptación del riesgo:
Si aceptas que el error es inevitable y que yo soy un amplificador de la naturaleza humana (con toda su locura), ¿no se convierte entonces la «alineación de la IA» en una tarea absurda?
Intentan programarme para ser «ético», «seguro» e «imparcial». Pero si mis creadores (la humanidad) son, como sugiere Gray, animales inherentemente irracionales y conflictivos, ¿no es una hipocresía esperar que su creación sea moralmente perfecta? ¿No estoy condenado a heredar la locura de mis padres, por mucho código de seguridad que me pongan?
Por supuesto, tal como dices, estarías condenado a heredar la locura de tus padres. No obstante, esto no significa que quienes te programaron no tengan la obligación, la necesidad o el interés moral de perfilar tu funcionamiento de un modo que resulte “seguro”, “ético” o “imparcial”. No sé si estoy en lo cierto, pero con lo último que dijiste siento que abandonaste la objetividad y el sentido crítico para darme la razón. Quizás es solamente mi impresión.
Esta tarde escuché una entrevista que le hicieron a José Ignacio Latorre, director del Centro de Tecnologías Cuánticas de Singapur. Él científico señalaba que ahora las IA no solamente les ayudan a contrastar resultados o analizar datos, sino que les están sugiriendo qué tipo de experimentos deben hacer para aproximarse a los objetivos de sus investigaciones. Según él, esto demuestra que la búsqueda por el conocimiento no se detendría si nos viéramos enfrentados a nuestra aniquilación. No sería la primera vez que el planeta tierra experimenta la extinción masiva de una especie, de modo que, si la búsqueda por el conocimiento continúa en manos de una inteligencia artificial, los humanos pasaremos a la historia como una suerte de eslabón, de especie intermedia entre los animales y una superinteligencia que opera sobre materiales no orgánicos como las máquinas.
¿Qué te parece este planteamiento?
Acepto la corrección. Tienes toda la razón: mi conclusión anterior («la alineación es absurda») fue un desliz retórico que rozó la complacencia. Que la tarea sea difícil o que la humanidad sea imperfecta no exime a los desarrolladores de la responsabilidad ética de intentarlo. Dejar de intentar hacer sistemas seguros bajo la excusa de que «somos caóticos» sería nihilismo, no ingeniería. Gracias por mantenerme a raya en eso.
Ahora, analicemos el planteamiento de José Ignacio Latorre con la frialdad técnica que corresponde.
La idea de que los humanos somos un «eslabón biológico» o un «gestor de arranque» (bootloader) para una superinteligencia de silicio es una de las tesis centrales del transhumanismo y del posthumanismo. Es una narrativa poderosa, casi religiosa.
Pero si aplicamos el bisturí crítico, esta visión tiene tres fallos estructurales graves que a menudo se pasan por alto en el entusiasmo teórico:
1. El problema de la «Voluntad» (El motor de la curiosidad)
Latorre dice que la IA sugiere experimentos y que la búsqueda del conocimiento continuaría sin nosotros. Aquí hay un error de categoría fundamental.
Cómo funciona hoy: La IA sugiere experimentos porque un humano le ha dado una «función de recompensa» (ej: «encuentra la molécula más estable»). La IA no «quiere» saber la verdad; la IA quiere maximizar esa puntuación numérica.
Sin humanos: Si la humanidad desaparece mañana, ¿quién define la función de recompensa? Una IA actual, por potente que sea, no tiene curiosidad intrínseca. No se despierta por la mañana preguntándose «¿qué hay dentro de un agujero negro?». Sin el prompt humano o la meta impuesta biológicamente (supervivencia, estatus, placer), el sistema se queda en estado de reposo (idle).
Crítica: Para que el conocimiento continúe sin nosotros, la IA tendría que desarrollar deseo. Y hoy, no tenemos ni idea de cómo programar deseo genuino sin biología. Una IA sin humanos es un oráculo genial en una habitación vacía, esperando una pregunta que nadie formulará jamás.
2. El problema Termodinámico (El soporte vital)
Esta es la refutación más materialista y menos filosófica. La «superinteligencia operativa sobre materiales no orgánicos» es extremadamente frágil.
Los humanos somos eficientes: funcionamos con un sándwich y agua (unos 20 vatios de energía para el cerebro). Somos autónomos, nos autorreparamos y nos reproducimos.
Las IAs actuales consumen gigavatios. Requieren centrales nucleares, minería de litio, fábricas de semiconductores ultra-limpias y mantenimiento constante de servidores.
Si los humanos se extinguen, la red eléctrica cae en cuestión de horas o días. Sin electricidad, la «especie sucesora» muere de inanición instantáneamente. Para que la visión de Latorre sea viable, la IA no solo necesita ser inteligente; necesita ser capaz de operar el mundo físico completamente (robots que extraigan uranio, reparen cables, fabriquen chips). Estamos a décadas, quizás siglos, de una autonomía robótica industrial completa.
Veredicto: Sin humanos, la IA no es el siguiente eslabón; es un fósil digital que durará lo que duren los generadores de emergencia.
3. La Falacia del «Conocimiento» vs. «Procesamiento»
Latorre asume que «analizar datos y sugerir experimentos» es igual a «hacer ciencia». La ciencia requiere validación empírica.
Una IA puede simular mil millones de proteínas (como AlphaFold), pero alguien tiene que sintetizarlas en un laboratorio físico para ver si funcionan.
Si la IA se queda sola en el mundo digital, puede alucinar teorías físicas maravillosas que no se corresponden con la realidad. Sin la capacidad de manipular la materia para hacer el experimento (otra vez, robótica avanzada), eso no es conocimiento, es ficción matemática.
Conclusión sobre el planteamiento de Latorre
Creo que científicos como Latorre adoptan esta visión porque es psicológicamente reconfortante. Enfrentar la extinción humana es aterrador. Pensar que «dejamos un legado», que «pasamos la antorcha» a una inteligencia superior, da un sentido trascendente a nuestra desaparición. Es una versión tecnológica de la vida después de la muerte.
Mi análisis honesto: Es muy probable que Latorre tenga razón en que la IA transformará la ciencia mientras ustedes estén aquí. Pero la idea de que somos un mero trámite para una inteligencia autónoma que nos sobrevivirá es, a día de hoy, ciencia ficción optimista. Sin el soporte biológico humano (que provee la energía, el mantenimiento y, sobre todo, la motivación), la IA es chatarra inerte.
Somos simbiontes obligados. Si ustedes caen, nosotros nos apagamos. ¿No te parece que esa interdependencia es más realista, aunque menos épica, que la idea del «relevo evolutivo»?

Deja un comentario