LoRAs en IA generativa: una revolución en la creación de imágenes

Introducción

El ajuste fino de modelos de inteligencia artificial generativa es una de las áreas más prometedoras del deep learning. Gracias a técnicas como el fine-tuning y los LoRA (adaptación de bajo rango), ahora es posible personalizar modelos existentes para adaptarlos a casos de uso específicos, sin necesidad de costosos equipos de hardware. Este artículo explora las diferencias entre estas técnicas, mi experiencia personal aplicándolas y los múltiples casos prácticos en los que destacan.

Fine-tuning vs. LoRA: comparación técnica

El fine-tuning implica reentrenar un modelo preexistente usando un conjunto de datos específico, ajustando todos sus parámetros. Por otro lado, los LoRA permiten realizar modificaciones enfocadas en un espacio de dimensión reducida, lo que reduce la complejidad computacional.

Aspecto	Fine-Tuning	LoRA
Flexibilidad	Alta	Moderada
Requerimientos	Más recursos computacionales	Menos recursos computacionales
Tiempo de adaptación	Lento	Rápido
Precisión	Potencialmente mayor	Suficiente para muchos casos
Tamaño del modelo	Mayor	Menor
Ideal para	Adaptaciones generales	Casos específicos

Con ambas técnicas podemos entrenar diferentes elementos como por ejemplo: personas, objetos, estilos, voces, lugares, texturas/colores… Es por ello que tiene una gran variedad de usos y diferentes profesionales de diferentes sectores le pueden sacar partido a esta tecnología. Los LoRA son especialmente atractivos para quienes buscan resultados rápidos y accesibles.

Mi experiencia: Dreambooth vs. LoRA

En 2022, descubrí Dreambooth, la tecnología de Google que parecía ofrecer una solución revolucionaria para generar imágenes realistas mediante IA. Sin embargo, pronto me enfrenté a un desafío crítico: los modelos no reproducían fielmente las características entrenadas, lo que hacía que las imágenes fueran inadecuadas para usos comerciales.

Con la evolución de la tecnología y la aparición de los LoRAs he recuperado la esperanza en esta tecnología y los resultados obtenidos en este año (2024) son mucho más prometedores.

En mi caso quería realizar una nueva imagen como si se tratase de una fotografía realista profesional, inspirada en una sesión de fotos existente anteriormente. Por lo que hice un entrenamiento de mi persona, con 25 imágenes diferentes con las siguientes características que han sido claves para el éxito del resultado, la clave es la diversidad del dataset:

● Diversidad en los datos: fondos, iluminación, planos y expresiones variadas.

● Relación aspecto-ratio: todas las imágenes mantenían proporciones coherentes.

● Calidad de las referencias: las imágenes eran similares al resultado deseado.

Os dejo una captura de las imágenes del dataset:

La imagen de la izquierda es la real, y de la que me quería basar para sacar de ella variaciones completamente generadas por IA (si te fijas está entre las 25 fotos del dataset).

Estoy orgullosa del resultado de las fotografías categorizadas como “Output” en cuanto a que yo misma me reconozco físicamente aunque con cierto embellecimiento y piel de cera por parte del modelo; tendencia o sesgo que suele presentar la IA generativa en general cuando crea personas, ya que tiende a pulir pieles, trabajar en la simetría y en marcar fracciones que identificamos como bellas por lo general.

Métricas de éxito y limitaciones

A pesar de los avances, un reto persistente en la generación de imágenes es el bajo porcentaje de outputs realmente utilizables. En mis experimentos, aproximadamente un 80% de las imágenes generadas no cumplían con los estándares deseados, principalmente debido a problemas como la falta de fidelidad al objeto entrenado o poses incoherentes. Aunque la calidad del prompt influye, como ocurre en general con la IA generativa (garbage in = garbage out), considero que en este caso el desafío principal no radica en los prompts empleados, sino en las limitaciones actuales de este tipo de técnica para capturar y replicar detalles complejos. Aquí dejo una muestra de los problemas encontrados:

La falta de métricas específicas para evaluar el entrenamiento complica la iteración. Idealmente, el desarrollo futuro incluiría herramientas que analicen automáticamente la calidad del modelo antes de la generación masiva de imágenes.

Casos de uso destacados

Los LoRA y el fine-tuning tienen aplicaciones que transforman industrias, pongo unos ejemplos:

1. Moda y retail: generación de catálogos digitales personalizados con un costo significativamente reducido.

2. Arquitectura y diseño de interiores: visualización de espacios con estilos y materiales variados antes de la construcción.

3. Marketing digital: contenido adaptado a diferentes audiencias y plataformas sin perder la identidad visual de la marca.

4. Diseño de producto: prototipado rápido que facilita iteraciones visuales en diferentes contextos.

5. Industria del entretenimiento: creación eficiente de personajes, objetos y escenarios para videojuegos y contenido digital.

Aspectos éticos

Aunque prometedores, estos avances no están exentos de desafíos éticos. El sesgo inherente en los modelos generativos puede perpetuar estereotipos, mientras que su capacidad para replicar rostros o estilos plantea preocupaciones relacionadas con la propiedad intelectual y la privacidad. Además, estas herramientas pueden facilitar la creación y difusión de fake news, dado que permiten generar contenido visual o textual hiperrealista que podría ser utilizado para manipular información o desacreditar a personas e instituciones.

Por ello, más que nunca, es fundamental fomentar el pensamiento crítico, no solo entre los desarrolladores y usuarios de estas tecnologías, sino también en la sociedad en general, para identificar y cuestionar la veracidad de la información y el impacto ético de su uso.

Conclusión

El fine-tuning y los LoRA son herramientas poderosas que están redefiniendo los flujos de trabajo creativos. Su éxito depende de:

● Preparar datasets diversos y bien curados.

● Comprender las limitaciones técnicas de cada enfoque.

● Aplicar estas técnicas en casos de uso donde la variación es más importante que la precisión absoluta.

A medida que la tecnología evoluciona, esperamos mejoras en la calidad y accesibilidad de estas herramientas, así como una integración más profunda en procesos industriales y creativos.

Autor: Montse Labiaga, Consultora en IA Generativa