Selecione o idioma

Portuguese

Down Icon

Selecione o país

England

Down Icon

Ajuste fino vs. aprendizagem em contexto: novas pesquisas orientam melhor personalização do LLM para tarefas do mundo real

Ajuste fino vs. aprendizagem em contexto: novas pesquisas orientam melhor personalização do LLM para tarefas do mundo real

Assine nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder do setor em IA. Saiba mais

Duas abordagens populares para personalizar modelos de linguagem de grande porte (LLMs) para tarefas posteriores são o ajuste fino e a aprendizagem em contexto (ICL). Em um estudo recente , pesquisadores do Google DeepMind e da Universidade Stanford exploraram as capacidades de generalização desses dois métodos. Eles descobriram que o ICL tem maior capacidade de generalização (embora acarrete um custo computacional maior durante a inferência). Eles também propõem uma nova abordagem para obter o melhor dos dois mundos.

As descobertas podem ajudar os desenvolvedores a tomar decisões cruciais ao criar aplicativos LLM para seus dados empresariais personalizados.

O ajuste fino envolve pegar um LLM pré-treinado e treiná-lo posteriormente em um conjunto de dados menor e especializado. Isso ajusta os parâmetros internos do modelo para lhe ensinar novos conhecimentos ou habilidades. A aprendizagem em contexto (ICL), por outro lado, não altera os parâmetros subjacentes do modelo. Em vez disso, ela orienta o LLM fornecendo exemplos da tarefa desejada diretamente no prompt de entrada. O modelo então usa esses exemplos para descobrir como lidar com uma consulta nova e semelhante.

Os pesquisadores se propuseram a comparar rigorosamente a eficácia da generalização dos modelos para novas tarefas usando esses dois métodos. Eles construíram "conjuntos de dados sintéticos controlados de conhecimento factual" com estruturas complexas e autoconsistentes, como árvores genealógicas imaginárias ou hierarquias de conceitos fictícios.

Para garantir que estavam testando a capacidade do modelo de aprender novas informações, eles substituíram todos os substantivos, adjetivos e verbos por termos sem sentido, evitando qualquer sobreposição com os dados que os LLMs poderiam ter encontrado durante o pré-treinamento.

Os modelos foram então testados em vários desafios de generalização. Por exemplo, um teste envolveu inversões simples . Se um modelo fosse treinado para dizer que "femp são mais perigosos que glons", ele poderia inferir corretamente que "glons são menos perigosos que femp"? Outro teste se concentrou em silogismos simples , uma forma de dedução lógica. Se lhe dissessem "Todos os glons são yomp" e "Todos os troff são glon", o modelo poderia deduzir que "Todos os troff são yomp"? Eles também usaram um "benchmark de estrutura semântica" mais complexo, com uma hierarquia mais rica desses fatos inventados, para testar uma compreensão mais matizada.

"Nossos resultados se concentram principalmente em configurações sobre como os modelos se generalizam para deduções e reversões do ajuste fino em novas estruturas de conhecimento, com implicações claras para situações em que o ajuste fino é usado para adaptar um modelo a informações proprietárias e específicas da empresa", disse Andrew Lampinen, cientista pesquisador do Google DeepMind e principal autor do artigo, ao VentureBeat.

Para avaliar o desempenho, os pesquisadores ajustaram o Gemini 1.5 Flash nesses conjuntos de dados. Para o ICL, eles alimentaram todo o conjunto de dados de treinamento (ou grandes subconjuntos) como contexto para um modelo ajustado por instruções antes de aplicar as perguntas do teste.

Os resultados mostraram consistentemente que, em cenários com dados correspondentes, a ICL levou a uma melhor generalização do que o ajuste fino padrão. Os modelos que utilizaram ICL foram geralmente melhores em tarefas como inverter relações ou fazer deduções lógicas a partir do contexto fornecido. Modelos pré-treinados, sem ajuste fino ou ICL, apresentaram desempenho insatisfatório, indicando a novidade dos dados de teste.

“Uma das principais desvantagens a considerar é que, embora o ICL não exija ajustes finos (o que economiza custos de treinamento), ele geralmente é mais custoso computacionalmente a cada uso, pois exige o fornecimento de contexto adicional ao modelo”, disse Lampinen. “Por outro lado, o ICL tende a generalizar melhor para os conjuntos de dados e modelos que avaliamos.”

Com base na observação de que o ICL se destaca na generalização flexível, os pesquisadores propuseram um novo método para aprimorar o ajuste fino: adicionar inferências em contexto aos dados de ajuste fino. A ideia central é usar os recursos de ICL do LLM para gerar exemplos mais diversos e ricamente inferidos e, em seguida, adicionar esses exemplos aumentados ao conjunto de dados usado para o ajuste fino.

Eles exploraram duas estratégias principais de aumento de dados:

  1. Uma estratégia local : Esta abordagem concentra-se em informações individuais. O LLM é solicitado a reformular frases individuais dos dados de treinamento ou a extrair inferências diretas deles, como gerar inversões.
  2. Uma estratégia global : o LLM recebe o conjunto de dados de treinamento completo como contexto e, então, é solicitado a gerar inferências vinculando um documento ou fato específico com o restante das informações fornecidas, levando a um raciocínio mais longo de inferências relevantes.

Quando os modelos foram ajustados com base nesses conjuntos de dados aumentados, os ganhos foram significativos. Esse ajuste fino aumentado melhorou significativamente a generalização, superando não apenas o ajuste fino padrão, mas também o ICL simples.

“Por exemplo, se um dos documentos da empresa diz 'XYZ é uma ferramenta interna para análise de dados', nossos resultados sugerem que o ICL e o ajuste fino aumentado serão mais eficazes para permitir que o modelo responda a perguntas relacionadas como 'Quais ferramentas internas para análise de dados existem?'”, disse Lampinen.

Essa abordagem oferece um caminho promissor para as empresas. Ao investir na criação desses conjuntos de dados ampliados por ICL, os desenvolvedores podem construir modelos aprimorados que demonstram capacidades de generalização mais robustas.

Isso pode levar a aplicações LLM mais robustas e confiáveis, que apresentam melhor desempenho em diversas entradas do mundo real, sem incorrer em custos contínuos de tempo de inferência associados a grandes prompts em contexto.

“O ajuste fino aumentado geralmente torna o processo de ajuste fino do modelo mais caro, pois requer uma etapa adicional de ICL para aumentar os dados, seguida pelo ajuste fino”, disse Lampinen. “Se esse custo adicional é justificado pela generalização aprimorada dependerá do caso de uso específico. No entanto, é computacionalmente mais barato do que aplicar ICL sempre que o modelo for usado, quando amortizado ao longo de muitos usos do modelo.”

Embora Lampinen tenha notado que mais pesquisas são necessárias para ver como os componentes estudados interagem em diferentes cenários, ele acrescentou que suas descobertas indicam que os desenvolvedores podem querer considerar explorar o ajuste fino aumentado em casos em que observam desempenho inadequado apenas com o ajuste fino.

“Em última análise, esperamos que este trabalho contribua para a ciência da compreensão da aprendizagem e da generalização em modelos de base, bem como para os aspectos práticos de sua adaptação a tarefas posteriores”, disse Lampinen.

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow