Tülu 3: Una IA de Codi Obert que Mereix Ser Explorada
Les proves realitzades amb Tülu 3 ens han deixat amb una impressió positiva.

L’evolució dels models de llenguatge ha estat marcada per un constant refinament dels processos de post-entrenament. Durant anys, els models de propietat com InstructGPT han perfeccionat la seva capacitat d’afinar instruccions i ajustar preferències, una tasca que, malgrat els seus èxits, segueix sent un repte.
Afegir noves habilitats a un model pot implicar la pèrdua d’altres capacitats generals, un equilibri difícil d’aconseguir. Tülu 3, el nou model de codi obert desenvolupat per Allen AI, s’ha proposat trencar aquesta barrera i tancar la bretxa entre els models oberts i tancats en termes de post-entrenament. Després de provar-lo, podem afirmar que és una alternativa potent i ben estructurada, amb un enfocament transparent que val la pena seguir explorant.
Una Estratègia de Post-Entrenament Transparent i Eficaç
La majoria de models d’IA d’alt rendiment utilitzen processos sofisticats de post-entrenament, que combinen múltiples rondes d’ajustaments, dades sintètiques i criteris d’avaluació variats. No obstant això, la seva metodologia i les dades emprades solen romandre en secret. Fins ara, cap dels 50 millors models classificats en LMSYS’s ChatBotArena (fins al 20 de novembre del 2024) ha fet públics els seus conjunts de dades de post-entrenament. Ni tan sols els models de pesos oberts han compartit detalls clau sobre les tècniques emprades per assolir aquests resultats.
Tülu 3 trenca aquest esquema mitjançant un enfocament totalment obert i documentat. No només posa a disposició els seus models de post-entrenament d’última generació, sinó que també comparteix totes les dades, les barreges de dades, les receptes d’entrenament, el codi i fins i tot la infraestructura i els marcs d’avaluació utilitzats. Aquest enfocament és un pas significatiu cap a una investigació més transparent i replicable, un aspecte essencial per a la comunitat científica i els desenvolupadors d’IA.
Innovacions Clau: Dades Verificables i RLVR
Un dels punts més destacats de Tülu 3 és la seva capacitat per entrenar-se amb problemes verificables mitjançant aprenentatge per reforç (RLVR – Reinforcement Learning with Verifiable Rewards). Això suposa una diferència fonamental respecte als models tradicionals, que depenen de sistemes de recompenses subjectives.
Amb RLVR, el model aprèn en funció de resultats objectius. Quan se li planteja un problema matemàtic, la resposta és correcta o incorrecta. Quan escriu codi, aquest ha de funcionar sense errors. Aquest enfocament permet que Tülu 3 desenvolupi habilitats d’alt nivell en tasques tècniques sense la necessitat d’introduir cap sistema subjectiu d’avaluació de respostes. En les nostres proves, això es tradueix en respostes més precises, especialment en problemes complexos de matemàtiques i codificació.
A més, el procés de post-entrenament de Tülu 3 incorpora tècniques avançades d’ajust de preferències. Un dels problemes habituals en aquest tipus d’entrenament és que els models tendeixen a produir respostes innecessàriament llargues per maximitzar la seva puntuació de preferència. Allen AI ha resolt aquest problema amb una optimització de preferències directes (DPO) normalitzada per longitud, aconseguint així respostes més eficients i directes, sense renunciar a la qualitat.
Un Model Oberta que Competix amb les Alternatives Tancades
Comparant el rendiment de Tülu 3 amb altres models d’última generació, ens trobem amb una alternativa que no només és competitiva en tasques de seguiment d’instruccions, matemàtiques i codificació, sinó que ho fa amb total transparència. En un ecosistema dominat per models tancats com els d’OpenAI, Anthropic o Google, l’existència d’una IA de codi obert capaç d’assolir nivells similars de rendiment és una gran notícia per a la comunitat.
La publicació de tots els detalls del seu entrenament i de les dades emprades també representa un canvi de paradigma. En el passat, la recerca en post-entrenament de models oberts quedava endarrerida respecte a la dels models comercials a causa de la manca d’accés a dades clau. Tülu 3 trenca aquest patró i obre noves possibilitats per a investigadors i desenvolupadors que volen entendre i millorar aquests processos.
Un Futur Prometedor per a la IA de Codi Obert
Les proves realitzades amb Tülu 3 ens han deixat amb una impressió positiva. El model presenta un nivell notable de precisió, una optimització eficient en el seguiment d’instruccions i un enfocament innovador en el seu entrenament per reforç. La seva obertura i transparència són un pas endavant en la recerca en IA, oferint una base sòlida per a futures millores i ajustaments.
L’aposta d’Allen AI per un desenvolupament totalment obert podria redefinir el panorama de la IA en els pròxims anys. Amb la combinació d’un post-entrenament sofisticat, un ús intel·ligent de les dades i una documentació exhaustiva, Tülu 3 no només es posiciona com una alternativa interessant, sinó com un model que val la pena continuar explorant i desenvolupant.