¿Es el inicio de la Era de la Humanidad Aumentada?

En un día el mundo cambió dos veces: fueron presentadas Gemini Pro 1.5 y Sora. Un salto exponencial y mucho por descubrir.

¿Es el inicio de la Era de la Humanidad Aumentada?

El 16 de febrero de 2024 fue un día histórico para el campo de la inteligencia artificial, ergo para la evolución de la humanidad. Dos de las empresas más importantes y avanzadas en este ámbito, Google DeepMind y OpenAI, presentaron sus últimas creaciones: Gemini Pro 1.5 y Sora, respectivamente.

Ambos papers presentados representan un salto exponencial cualitativo y cuantitativo en las capacidades de generación e interpretación de contenido multimodal, es decir, texto, imágenes, vídeos y código. Conozcamos las características, las ventajas y los desafíos de estas dos innovaciones, así como sus implicaciones para el futuro de la humanidad.

* * *

Antes de seguir te adjunto los enlaces a las fuentes por si tu curiosidad se despierta y tenés ganas de entretenerte viendo el mundo evolucionar. Es domingo, estoy seguro de que podés hacerte un tiempo para leer sobre este nuevo mundo y luego compartir tus opiniones en los comentarios o en futuras cartas al director:

Sora (openai.com)

Our next-generation model: Gemini 1.5 (está en inglés pero puedes usar un traductor al español)

Gemini Pro 1.5: ¿Más cerca de la IA General?

La AGI es la sigla de Inteligencia Artificial General. Explicado de forma simple es como una máquina que puede pensar y hacer cualquier cosa que un humano pueda hacer, como hablar, leer, escribir, dibujar, aprender y crear. Gemini Pro 1.5 es un modelo de inteligencia artificial que puede procesar textos, imágenes, vídeos y código, y que puede entender y generar contenido de forma rápida y precisa. Esta nueva inteligencia artificial puede ser un paso más hacia la AGI porque tiene una gran capacidad para comprender el contexto, es decir, la información que rodea a lo que se le pide, y para adaptarse a diferentes tareas y situaciones.

Además, Gemini Pro 1.5 es un modelo multimodal (por sus siglas MLLM: Multimodal Large Lenguaje Model), lo que significa que puede procesar no solo texto, sino también imágenes, vídeos y código, generando contenido relevante y coherente a partir de cualquier tipo de entrada.

Una de las características más destacadas de Gemini Pro 1.5 es su enorme ventana de contexto, que alcanza el 1 millón de tokens, la más grande que cualquier modelo de lenguaje natural hasta la fecha. Esto significa que la IA de Google DeepMind puede procesar enorme cantidad de tokens, que son las unidades mínimas de información que puede entender el modelo, lo que le permite comprender solicitudes más complejas y tomar en cuenta el contexto de la conversación.

Otra ventaja que hace a la genialidad del modelo es su arquitectura eficiente, basada en el concepto de Mixture-of-Experts (MoE, te escribo las siglas como para que vayas entendiendo un poco más), que consiste en dividir el modelo en varios submodelos especializados o expertos, que se activan según la tarea que se requiera. Esto permite reducir el consumo de recursos y optimizar el rendimiento, sin perder calidad ni precisión. Por ejemplo, si le pido la resolución de un problema matemático activará el submodelo experto en esa ciencia y no el experto en empatía o poesía.

Los modelos MoE: Mezcla de Expertos

Entre las capacidades de Gemini Pro 1.5 se encuentran:

- Razonar documentos muy extensos, desde comparar detalles de contratos hasta resumir y analizar temas y opiniones en informes de analistas, estudios de investigación o incluso una serie de libros.

- Generar contenido original y creativo, desde poemas, historias, canciones, parodias de celebridades, hasta código, ensayos, presentaciones, infografías y más, a partir de una descripción o una muestra.

- Conversar de forma fluida, natural y empática con los usuarios, adaptándose a su tono, estilo y preferencias, y ofreciendo información útil, respuestas a preguntas y entretenimiento.

Gemini Pro 1.5 es una herramienta que por ahora está limitada a un selecto grupo de expertos que están testeando y corrigiendo. Sin embargo, la empresa también ofrece una versión de pago, llamada Gemini Advanced, que ofrece más capacidad, personalización y soporte para los clientes empresariales, que quieran aprovechar al máximo el potencial de la IA de Google.

Sora: reinventando la industria del cine

El lanzamiento de Sora me hizo rememorar la sensación de la primera vez que usé instructGPT en 2019, la primera versión de GPT de OpenAI. Parecía magia, algo que a pesar de que entendía la estructura de su funcionamiento científico mi parte emocional lo veía como el hombre de la caverna al fuego.

Sora, la última creación de OpenAI, es una IA de generación de video, que puede crear vídeos de calidad cinematográfica de hasta 60 segundos a partir de un texto, usando el mismo principio que ChatGPT: el usuario escribe una descripción de lo que quiere ver, y la IA lo genera. Sin embargo, Sora va mucho más allá, ya que no solo genera imágenes, sino también movimiento, iluminación, texturas, físicas y partículas, creando vídeos realistas y convincentes con un grado de error que en breve será un chiste.

Te invito a que entres a YouTube y busques los videos de Sora y los compares con los modelos predecesores de no menos de un año atrás. Es casi increíble que esos vídeos se generen con una breve descripción de las imágenes y no filmada por un equipo de expertos con miles de dólares de inversión y días o meses de trabajo… sino minutos y, por ahora, a costo cero.

Sora es el resultado de combinar varias tecnologías de vanguardia en el campo de la IA, como la generación adversarial, la codificación perceptual, la síntesis neural y la transferencia de estilo. Además, Sora se beneficia de todo el conocimiento y la experiencia acumulados por OpenAI con ChatGPT y DALL·E, su IA de generación de imágenes.

Algunas capacidades de Sora

- Crear vídeos de cero, a partir de una descripción textual, que puede ser tan detallada o tan vaga como el usuario quiera. Por ejemplo, el usuario puede escribir “Una animación stop motion de una flor que crece en el alféizar de una casa suburbana”.

- Animar imágenes, a partir de una imagen estática y una indicación de movimiento. Por ejemplo, el usuario puede subir una foto de una persona y escribir “haz que baile salsa”.

- Ampliar la duración de vídeos reales, a partir de un vídeo corto y una indicación de tiempo. Por ejemplo, el usuario puede subir un vídeo de 10 segundos de un paisaje y escribir “haz que dure 1 minuto”.

Por ahora, Sora es una herramienta de uso exclusivo para un grupo selecto de tester de OpenAI y de la industria de la generación de video. Ese grupo está probando el modelo y estudiando el impacto en la industria.

Abriendo el camino de la nueva Era

Gemini Pro 1.5 y Sora son dos innovaciones revolucionarias en el campo de la inteligencia artificial, que demuestran el avance y la diversidad de este ámbito. Ambas herramientas ofrecen posibilidades infinitas para la generación e interpretación de contenido multimodal, que pueden tener un impacto positivo o negativo en múltiples sectores y actividades, como la educación, la comunicación, el entretenimiento, la ciencia, el arte y más.

Sin embargo, estas innovaciones también plantean desafíos y riesgos, que debemos afrontar con responsabilidad y ética. Algunos de estos desafíos son:

- El uso indebido o malintencionado de estas herramientas, para fines ilegales, fraudulentos o dañinos, como la creación de vídeos falsos o deepfakes, la difusión de información falsa o engañosa, o la violación de la privacidad o la seguridad de las personas.

- El impacto social y laboral de estas herramientas, que pueden afectar a la economía, la cultura, la política y la psicología de las personas, al cambiar la forma en que producimos, consumimos y compartimos contenido, así como la forma en que nos relacionamos, aprendemos y nos expresamos.

- El equilibrio entre la inteligencia artificial y la inteligencia humana, que debe ser respetado y potenciado, para evitar la dependencia, la alienación o la sustitución de la inteligencia humana por la artificial, y para fomentar la colaboración, la complementariedad y la sinergia entre ambas.

Estos desafíos nos invitan a reflexionar sobre el papel y el propósito de la inteligencia artificial en nuestra sociedad, y sobre la visión y los valores que queremos promover con su uso. En este sentido, abogo por una visión de la Humanidad Aumentada, donde la tecnología y la inteligencia artificial se usan para potenciar y enriquecer las capacidades, las experiencias y las aspiraciones de las personas, y no para reemplazarlas o limitarlas.

La humanidad aumentada es una propuesta que parte de la filosofía transhumanista, pero con una visión optimista y fundada en una vuelta a los valores humanos. Considero que la IA no es la quinta revolución industrial, sino un cambio de era, algo mucho más profundo. Ya que, a diferencia de las otras cuatro revoluciones industriales (la máquina de vapor, la electricidad, la producción en masa y la informática), que modificaron una herramienta de trabajo, la IA modifica lo más humano que tenemos: nuestra capacidad de pensar, razonar, crear historias, arte y más, como por ejemplo lo hacen Sora y Gemini Pro 1.5.

Gemini Pro 1.5 y Sora son dos hitos que marcan el inicio de la era de la humanidad aumentada, una era donde la tecnología y la inteligencia humana se fusionan, se complementan y se potencian, para crear un mundo mejor para todos.

Colaboración de Federico Lix Klett, especialistas en distintos campos de Inteligencia Artificial.

Comentarios