Dil Seçin

Turkish

Down Icon

Ülke Seçin

England

Down Icon

Statik yapay zekanın ötesinde: MIT'nin yeni çerçevesi, modellerin kendilerini eğitmesine olanak tanıyor

Statik yapay zekanın ötesinde: MIT'nin yeni çerçevesi, modellerin kendilerini eğitmesine olanak tanıyor

Yaklaşık yirmi yıldır kurumsal liderlerin güvendiği etkinliğe katılın. VB Transform, gerçek kurumsal AI stratejisi oluşturan insanları bir araya getiriyor. Daha fazla bilgi edinin

MIT'deki araştırmacılar, büyük dil modellerinin (LLM'ler) kendi iç parametrelerini güncelleyerek sürekli öğrenmesini ve uyum sağlamasını sağlayan Self-Adapting Language Models (SEAL) adlı bir çerçeve geliştirdiler. SEAL, bir LLM'ye kendi eğitim verilerini üretmeyi ve talimatları güncellemeyi öğreterek, kalıcı olarak yeni bilgileri özümsemesini ve yeni görevler öğrenmesini sağlar.

Bu çerçeve, özellikle dinamik ortamlarda çalışan, sürekli olarak yeni bilgileri işlemesi ve davranışlarını uyarlaması gereken yapay zeka ajanları için kurumsal uygulamalar açısından yararlı olabilir.

Büyük dil modelleri dikkate değer yetenekler göstermiş olsa da, bunları belirli görevlere uyarlamak, yeni bilgileri entegre etmek veya yeni akıl yürütme becerilerinde ustalaşmak önemli bir engel olmaya devam ediyor.

Şu anda, yeni bir görevle karşı karşıya kaldıklarında, LLM'ler genellikle ince ayar veya bağlam içi öğrenme gibi yöntemlerle verilerden "olduğu gibi" öğrenirler. Ancak, sağlanan veriler her zaman modelin verimli bir şekilde öğrenmesi için en uygun biçimde değildir. Mevcut yaklaşımlar, modelin yeni bilgileri en iyi şekilde dönüştürme ve öğrenme için kendi stratejilerini geliştirmesine izin vermez.

MIT'de doktora öğrencisi ve makalenin ortak yazarı olan Jyo Pari, VentureBeat'e "Birçok kurumsal kullanım örneği yalnızca gerçekleri hatırlamaktan daha fazlasını talep ediyor; daha derin, kalıcı bir adaptasyon gerektiriyor," dedi. "Örneğin, bir kodlama asistanının bir şirketin belirli yazılım çerçevesini içselleştirmesi gerekebilir veya müşteriye bakan bir modelin bir kullanıcının benzersiz davranışlarını veya tercihlerini zaman içinde öğrenmesi gerekebilir."

Bu gibi durumlarda, geçici geri çağırma yetersiz kalır ve bilginin, gelecekteki tüm yanıtları etkileyecek şekilde modelin ağırlıklarına "eklenmesi" gerekir.

MIT araştırmacıları makalelerinde, "Dil modellerinin ölçeklenebilir ve etkili bir şekilde uyarlanmasına yönelik bir adım olarak, LLM'lere kendi eğitim verilerini üretme ve bu verileri kullanmaya yönelik yönergeleri ince ayar yapma yeteneği kazandırmayı öneriyoruz" ifadelerini kullandı.

SEAL çerçevesine genel bakış (kaynak: arXiv)
SEAL çerçevesine genel bakış Kaynak: arXiv

Araştırmacıların çözümü SEAL, yani Self-Adapting Language Models'ın kısaltmasıdır. Bir LLM'yi "kendi kendine düzenlemeler" üretmesi için eğitmek için bir takviyeli öğrenme (RL) algoritması kullanır; bu, modelin kendi ağırlıklarını nasıl güncellemesi gerektiğini belirten doğal dil talimatlarıdır. Bu kendi kendine düzenlemeler yeni bilgileri yeniden yapılandırabilir, sentetik eğitim örnekleri oluşturabilir veya hatta öğrenme sürecinin kendisi için teknik parametreleri tanımlayabilir.

Sezgisel olarak, SEAL bir modele kendi kişiselleştirilmiş çalışma rehberini nasıl oluşturacağını öğretir. Sadece yeni bir belgeyi (ham verileri) okumak yerine, model bu bilgileri daha kolay özümseyebileceği ve içselleştirebileceği bir stile yeniden yazmayı ve yeniden biçimlendirmeyi öğrenir. Bu süreç, sentetik veri üretimi, takviyeli öğrenme ve test zamanı eğitimi (TTT) dahil olmak üzere AI araştırmasının birkaç temel alanını bir araya getirir.

Çerçeve iki döngülü bir sistemde çalışır. Bir "iç döngüde" model, ağırlıklarında küçük ve geçici bir güncelleme yapmak için kendi kendini düzenlemeyi kullanır. Bir "dış döngüde" sistem, bu güncellemenin modelin hedef görevdeki performansını iyileştirip iyileştirmediğini değerlendirir. İyileştirdiyse, model olumlu bir ödül alır ve gelecekte bu tür etkili bir kendi kendini düzenleme üretme yeteneğini güçlendirir. Zamanla, LLM kendini öğretme konusunda uzmanlaşır.

Araştırmacılar, çalışmalarında tüm SEAL çerçevesi için tek bir model kullandılar. Ancak, bu sürecin bir "öğretmen-öğrenci" modeline ayrıştırılabileceğini de belirtiyorlar. Uzmanlaşmış bir öğretmen modeli, daha sonra güncellenecek olan ayrı bir öğrenci modeli için etkili öz düzenlemeler üretecek şekilde eğitilebilir. Bu yaklaşım, kurumsal ortamlarda daha uzmanlaşmış ve verimli uyarlama hatlarına olanak tanıyabilir.

Araştırmacılar SEAL'i iki temel alanda test ettiler: bilgi birleştirme (yeni gerçekleri kalıcı olarak entegre etme yeteneği) ve birkaç adımlı öğrenme (bir avuç örnekten genelleme yapma yeteneği).

Bilgi birleştirmede SEAL (kaynak: arXiv)
Bilgi birleştirmede SEAL Kaynak: arXiv

Bilgi birleştirme için amaç, modelin sorgulama sırasında pasaja erişim sağlamadan bir metin pasajı hakkındaki soruları yanıtlayıp yanıtlayamayacağını görmekti. Ham metinde Llama-3.2-1B'yi ince ayarlamak, temel modele göre yalnızca marjinal bir iyileştirme sağladı.

Ancak, SEAL modeli bir pasajdan birkaç "çıkarım" üreterek "kendi kendini düzenlemeleri" oluşturduğunda ve bu sentetik veriler üzerinde eğitildiğinde, doğruluğu %47'ye sıçradı. Özellikle, bu, çok daha büyük GPT-4.1 tarafından üretilen sentetik verileri kullanmanın sonuçlarını geride bıraktı ve modelin kendisi için üstün eğitim materyali oluşturmayı öğrendiğini gösterdi.

SEAL az atışlı öğrenmede (kaynak: arXiv)
Birkaç atışlı öğrenmede SEAL Kaynak: arXiv

Az sayıda çekimlik öğrenme için araştırmacılar SEAL'i, modelin görsel bulmacaları çözmesi gereken Abstract Reasoning Corpus'tan (ARC) alınan örnekler üzerinde test ettiler. Kendi kendine düzenleme aşamasında, modelin hangi veri artırımlarının ve araçlarının kullanılacağı ve hangi öğrenme oranının uygulanacağı dahil olmak üzere tüm uyarlama stratejisini oluşturması gerekiyordu.

SEAL, %72,5'lik bir başarı oranına ulaştı; bu, gerçek yaşam eğitimi olmadan elde edilen %20'lik orana ve standart bağlam içi öğrenmenin %0'lık oranına kıyasla önemli bir gelişme.

SEAL (kırmızı çizgi) RL döngüleri boyunca iyileşmeye devam ediyor (kaynak: arXiv)
SEAL (kırmızı çizgi) RL döngüleri boyunca iyileşmeye devam ediyor Kaynak: arXiv

Bazı uzmanlar, yüksek kaliteli, insan tarafından üretilen eğitim verilerinin önümüzdeki yıllarda tükenebileceğini öngörüyor. İlerleme, araştırmacıların ifade ettiği gibi, yakında "bir modelin kendi yüksek faydalı eğitim sinyalini üretme kapasitesine" bağlı olabilir. "Doğal bir sonraki adım, yeni ön eğitim korpusları üreten özel bir SEAL sentetik veri üreteci modelini meta-eğitmektir, bu da gelecekteki modellerin ölçeklenmesini ve ek insan metnine güvenmeden daha fazla veri verimliliği elde etmesini sağlar." diye ekliyorlar.

Örneğin araştırmacılar, bir LLM programının akademik makaleler veya finansal raporlar gibi karmaşık belgeleri özümseyip, anlayışını derinleştirmek için otonom olarak binlerce açıklama ve çıkarım üretebileceğini öne sürüyorlar.

Araştırmacılar, "Bu kendini ifade etme ve kendini geliştirme döngüsü, ek bir dış denetimin olmadığı durumlarda bile modellerin nadir veya yeterince temsil edilmeyen konularda gelişmeye devam etmesini sağlayabilir" şeklinde açıklıyor.

Bu yetenek özellikle AI ajanları oluşturmak için umut vericidir. Ajan sistemleri, çevreleriyle etkileşime girdikçe bilgiyi artımlı olarak edinmeli ve korumalıdır. SEAL bunun için bir mekanizma sağlar. Bir etkileşimden sonra, bir ajan bir ağırlık güncellemesini tetiklemek için kendi kendini düzenlemeyi sentezleyebilir ve bu da öğrenilen dersleri içselleştirmesini sağlar. Bu, ajanın zaman içinde gelişmesini, deneyime dayalı performansını iyileştirmesini ve statik programlamaya veya tekrarlanan insan rehberliğine olan bağımlılığını azaltmasını sağlar.

Araştırmacılar, "SEAL, büyük dil modellerinin ön eğitimden sonra statik kalması gerekmediğini gösteriyor" diye yazıyor. "Kendi sentetik kendi kendine düzenleme verilerini üretmeyi ve bunu hafif ağırlık güncellemeleri yoluyla uygulamayı öğrenerek, yeni bilgileri otonom bir şekilde dahil edebilir ve yeni görevlere uyum sağlayabilirler."

Bununla birlikte, SEAL evrensel bir çözüm değildir. Örneğin, sürekli yeniden eğitim döngülerinin modelin daha önceki bilgisini öğrenmesiyle sonuçlanabileceği "felaket unutma" sorunu yaşayabilir.

Pari, "Mevcut uygulamamızda hibrit bir yaklaşımı teşvik ediyoruz" dedi. "İşletmeler, kalıcı olarak entegre etmek için yeterince önemli olan bilginin ne olduğu konusunda seçici olmalıdır."

RAG ile gerçek ve gelişen veriler harici bellekte kalabilirken, uzun süreli, davranış şekillendirici bilgi SEAL ile kilo seviyesi güncellemeleri için daha uygundur.

"Bu tür hibrit bellek stratejisi, modeli bunaltmadan veya gereksiz unutmalara yol açmadan doğru bilginin kalıcı olmasını sağlar" dedi.

Ayrıca SEAL'in kendi kendini düzenleyen örnekleri ayarlamak ve modeli eğitmek için önemsiz olmayan bir zaman miktarı aldığını belirtmekte fayda var. Bu, çoğu üretim ortamında sürekli, gerçek zamanlı düzenlemeyi olanaksız hale getirir.

Pari, "Sistemin bir süre boyunca (örneğin birkaç saat veya bir gün) veri topladığı ve ardından planlanan güncelleme aralıklarında hedeflenen kendi kendine düzenlemeler gerçekleştirdiği daha pratik bir dağıtım modeli öngörüyoruz" dedi. "Bu yaklaşım, kuruluşların SEAL'in yeni bilgiyi içselleştirme becerisinden faydalanırken uyarlama maliyetini kontrol etmelerine olanak tanır."

VB Daily ile iş kullanım örneklerine ilişkin günlük içgörüler

Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.

Gizlilik Politikamızı okuyun

Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.

Bir hata oluştu.

venturebeat

venturebeat

Benzer Haberler

Tüm Haberler
Animated ArrowAnimated ArrowAnimated Arrow