İnce ayar ve bağlam içi öğrenme: Yeni araştırma, gerçek dünya görevleri için daha iyi LLM özelleştirmesine rehberlik ediyor

Sektör lideri AI kapsamı hakkında en son güncellemeler ve özel içerikler için günlük ve haftalık bültenlerimize katılın. Daha Fazla Bilgi Edinin
Aşağı akış görevleri için büyük dil modellerini (LLM) özelleştirmek için iki popüler yaklaşım ince ayar ve bağlam içi öğrenmedir (ICL). Yakın zamanda yapılan bir çalışmada , Google DeepMind ve Stanford Üniversitesi'ndeki araştırmacılar bu iki yöntemin genelleme yeteneklerini araştırdılar. ICL'nin daha büyük genelleme yeteneğine sahip olduğunu buldular (ancak çıkarım sırasında daha yüksek bir hesaplama maliyetiyle birlikte gelir). Ayrıca her iki dünyanın da en iyisini elde etmek için yeni bir yaklaşım öneriyorlar.
Bulgular, geliştiricilerin özel kurumsal verileri için LLM uygulamaları oluştururken önemli kararlar almalarına yardımcı olabilir.
İnce ayar, önceden eğitilmiş bir LLM'yi alıp daha küçük, uzmanlaşmış bir veri kümesinde daha fazla eğitmeyi içerir. Bu, modelin dahili parametrelerini ona yeni bilgi veya beceriler öğretmek için ayarlar. Öte yandan, bağlam içi öğrenme (ICL), modelin temel parametrelerini değiştirmez. Bunun yerine, LLM'yi doğrudan giriş isteminde istenen görevin örneklerini sağlayarak yönlendirir. Daha sonra model, bu örnekleri kullanarak yeni, benzer bir sorguyu nasıl ele alacağını bulur.
Araştırmacılar, bu iki yöntemi kullanarak modellerin yeni görevlere ne kadar iyi genelleştirildiğini titizlikle karşılaştırmaya koyuldular. Hayali aile ağaçları veya kurgusal kavramların hiyerarşileri gibi karmaşık, kendi içinde tutarlı yapılarla "gerçek bilginin kontrollü sentetik veri kümeleri" oluşturdular.
Modelin yeni bilgi öğrenme yeteneğini test ettiklerinden emin olmak için, tüm isimleri, sıfatları ve fiilleri anlamsız terimlerle değiştirdiler ve böylece LLM'lerin ön eğitim sırasında karşılaşabilecekleri verilerle herhangi bir çakışmayı önlediler.
Daha sonra modeller çeşitli genelleme zorlukları üzerinde test edildi. Örneğin, bir test basit tersine çevirmeleri içeriyordu. Bir model "femp'in glon'dan daha tehlikeli" olduğu konusunda eğitilirse, "glon'un femp'ten daha az tehlikeli" olduğu sonucunu doğru bir şekilde çıkarabilir mi? Başka bir test, mantıksal çıkarımın bir biçimi olan basit kıyaslamalara odaklandı. Modele "Tüm glon'lar yomp'tur" ve "Tüm troff'lar glon'dur" dendiğinde, "Tüm troff'lar yomp'tur" sonucu çıkarılabilir mi? Ayrıca, daha ayrıntılı anlayışı test etmek için bu uydurma gerçeklerin daha zengin bir hiyerarşisine sahip daha karmaşık bir "anlamsal yapı kıyaslaması" kullandılar.
Google DeepMind'da Araştırma Bilim İnsanı ve makalenin baş yazarı olan Andrew Lampinen, VentureBeat'e yaptığı açıklamada, "Sonuçlarımız, esas olarak modellerin yeni bilgi yapılarına ilişkin ince ayardan çıkarımlara ve geri dönüşlere nasıl genelleştirildiğine ilişkin ayarlara odaklanıyor ve ince ayarın bir modeli şirket özelinde ve tescilli bilgilere uyarlamak için kullanıldığı durumlar için açık çıkarımlar içeriyor" dedi.
Performansı değerlendirmek için araştırmacılar, Gemini 1.5 Flash'ı bu veri kümelerinde ince ayarladılar. ICL için, test sorularını sormadan önce tüm eğitim veri kümesini (veya büyük alt kümeleri) bir talimata göre ayarlanmış modele bağlam olarak beslediler.
Sonuçlar tutarlı bir şekilde, veri eşlemeli ortamlarda ICL'nin standart ince ayardan daha iyi genellemeye yol açtığını gösterdi. ICL kullanan modeller genellikle ilişkileri tersine çevirme veya sağlanan bağlamdan mantıksal çıkarımlar yapma gibi görevlerde daha iyiydi. İnce ayar veya ICL olmadan önceden eğitilmiş modeller zayıf performans gösterdi ve bu da test verilerinin yeniliğini gösterdi.
"Dikkate alınması gereken temel tavizlerden biri, ICL'nin ince ayar gerektirmemesi (ki bu da eğitim maliyetlerinden tasarruf sağlar) ancak modele ek bağlam sağlamayı gerektirdiği için her kullanımda genellikle daha fazla hesaplama maliyetine sahip olmasıdır," dedi Lampinen. "Öte yandan, ICL değerlendirdiğimiz veri kümeleri ve modeller için daha iyi genelleme yapma eğilimindedir."
ICL'nin esnek genellemede üstün olduğu gözlemine dayanarak, araştırmacılar ince ayarı geliştirmek için yeni bir yöntem önerdiler: ince ayar verilerine bağlam içi çıkarımlar eklemek. Temel fikir, LLM'nin kendi ICL yeteneklerini kullanarak daha çeşitli ve zengin çıkarımlı örnekler üretmek ve ardından bu zenginleştirilmiş örnekleri ince ayar için kullanılan veri kümesine eklemektir.
İki temel veri artırma stratejisini araştırdılar:
- Yerel bir strateji : Bu yaklaşım, bireysel bilgi parçalarına odaklanır. LLM, eğitim verilerinden tek cümleleri yeniden ifade etmeye veya bunlardan doğrudan çıkarımlar çıkarmaya teşvik edilir, örneğin ters çevirmeler üretmek gibi.
- Küresel bir strateji : LLM öğrencisine bağlam olarak tam eğitim veri seti verilir, ardından belirli bir belge veya gerçeği sağlanan diğer bilgilerle ilişkilendirerek çıkarımlar üretmesi istenir ve bu da ilgili çıkarımların daha uzun bir akıl yürütme izine yol açar.
Modeller bu artırılmış veri kümelerinde ince ayarlandığında kazanımlar önemliydi. Bu artırılmış ince ayar, genellemeyi önemli ölçüde iyileştirdi ve yalnızca standart ince ayarı değil aynı zamanda düz ICL'yi de geride bıraktı.

Lampinen, "Örneğin, şirket belgelerinden birinde 'XYZ, verileri analiz etmek için dahili bir araçtır' yazıyorsa, sonuçlarımız ICL ve artırılmış ince ayarın, modelin 'Veri analizi için hangi dahili araçlar mevcuttur?' gibi ilgili soruları yanıtlamasını sağlamada daha etkili olacağını gösteriyor" dedi.
Bu yaklaşım, işletmeler için ileriye doğru ikna edici bir yol sunar. Bu ICL ile zenginleştirilmiş veri kümelerini oluşturmaya yatırım yaparak, geliştiriciler daha güçlü genelleme yetenekleri sergileyen ince ayarlı modeller oluşturabilirler.
Bu, büyük bağlam içi istemlerle ilişkili sürekli çıkarım zamanı maliyetlerine katlanmadan, çeşitli, gerçek dünya girdilerinde daha iyi performans gösteren, daha sağlam ve güvenilir LLM uygulamalarına yol açabilir.
Lampinen, "Geliştirilmiş ince ayar, genellikle model ince ayar sürecini daha pahalı hale getirecektir çünkü verileri artırmak için ek bir ICL adımı ve ardından ince ayar gerektirir," dedi. "Bu ek maliyetin geliştirilmiş genelleme tarafından hak edilip edilmediği belirli kullanım durumuna bağlı olacaktır. Ancak, modelin birçok kullanımı boyunca amortize edildiğinde, model her kullanıldığında ICL uygulamaktan hesaplama açısından daha ucuzdur."
Lampinen, inceledikleri bileşenlerin farklı ortamlarda nasıl etkileşime girdiğini görmek için daha fazla araştırmaya ihtiyaç olduğunu belirtirken, bulgularının geliştiricilerin yalnızca ince ayardan yetersiz performans gördükleri durumlarda artırılmış ince ayarı araştırmayı düşünmek isteyebileceklerini gösterdiğini sözlerine ekledi.
Lampinen, "Sonuç olarak, bu çalışmanın temel modellerdeki öğrenme ve genellemeyi anlama bilimine ve bunları sonraki görevlere uyarlamanın pratikliğine katkıda bulunacağını umuyoruz" dedi.
Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.
Bir hata oluştu.

venturebeat