Bir Japon bulmacası yapay zekayı alt etti. Makine bulmacayı çözemiyor.

Sayı bulmacaları binlerce yıldır bilinen bir eğlence olmuştur; ilk olarak antik Çin'de ortaya çıkmış ve 19. yüzyılın sonlarında gazetelerde yer almaya başlamıştır. Yaklaşık 20 yıl önce, Sudoku dünya çapında popülerlik kazanmış ve ilk olarak 1986'da Japon dergisi "Nicoli"de yayınlanmıştır. Bugün, oyunun dünya çapında milyonlarca hayranı var ve yalnızca mobil uygulamasının çeşitli sürümleri yaklaşık 200 milyon kullanıcı tarafından indirilmiştir.
Sudoku, 9x9'luk kare bir ızgaradaki boş kareleri sayılarla doldurmayı içerir. Izgaranın bölündüğü her satır, sütun ve 3x3'lük kare (sayı bloğu), 1'den 9'a kadar bir rakam içermelidir ve hiçbir rakam tekrarlanamaz. Sheffield Üniversitesi'nden (İngiltere) matematikçiler, 2005 yılında yaklaşık 6 katrilyon olası geçerli Sudoku ızgarası (6 x 10 üzeri 21. kuvvet) olduğunu kanıtladılar. Oyunun başka versiyonları da mevcuttur; örneğin, 6x6'lık bir ızgara 1'den 6'ya kadar olan rakamlarla doldurulmalıdır.
Şimdi, Sudoku'nun yapay zeka için bir zorluk teşkil ettiği ortaya çıktı. Yapay zeka , büyük veri kümelerini analiz etme, metin, resim ve video oluşturma ve çeviri gibi alanlarda muazzam ilerleme kaydetse de, mantıksal görevler onun zayıf noktasıdır. Bu durum, Boulder'daki Colorado Üniversitesi'nden (ABD) araştırmacılar tarafından da doğrulandı. Araştırmacıların konuyla ilgili makalesi, Hesaplamalı Dilbilim Derneği (ACL) tarafından derlenen 110.000'den fazla makaleden oluşan "ACL Anthology" de yayınlandı.
Makalenin başyazarı, bilgisayar bilimi ve makine öğrenimi uzmanı Anirudh Maiya'nın da belirttiği gibi, Sudoku çözmenin birçok önemli unsuru var.
Uzman, "Adım adım ilerlemeli, sayı alanlarını sürekli olarak yeniden değerlendirmeli ve kurallara tutarlı bir şekilde uymalısınız. Bu tür bulmacalar eğlencelidir, ancak aynı zamanda makine öğreniminde karar verme sürecini incelemek için ideal bir mikrokozmos sağlarlar," diye açıkladı.
Çalışma için Maiya ve ekibi, 6x6'lık bir tabloda farklı zorluk seviyelerinde 2.300 Sudoku bulmacası oluşturdu. Araştırmacılar daha sonra bulmacaları çözmek için o1, Llama-3.1, Gemma-2 ve Mistral gibi çeşitli büyük dil modellerine (LLM) atadı.
Deney , görevin tüm yapay zeka modelleri için çok zor olduğunu gösterdi; bulmacaların yalnızca %0,4'ünü çözebildiler. Araştırmacılar bunu, yapay zekanın mantıksal düşünmemesine, bunun yerine olasılığa dayalı çözümler bulmasına bağlıyor. Bu nedenle, kural tabanlı ve akıl yürütmeye dayalı görevler yapay zeka için zor.
- Yapay zeka modelleri, bir sayı ızgarasındaki tüm sınırlayıcı faktörleri aynı anda hesaba katmakta zorluk çekiyor - diye açıkladı makalenin yazarları.
LLM öğrencileri arasında o1, Sudoku bulmacalarının yaklaşık %65'ini çözerek en iyi performansı gösterdi. Ancak bulmacaların zorluğu arttıkça başarı oranı da düştü.
Araştırmacılar yapay zekadan bulmacanın çözümüne nasıl ulaştığını açıklamasını istediğinde daha da fazla sorun ortaya çıktı. Test edilen tüm modellerin yalnızca %5'i, belirli sayıların girilmesini doğru bir şekilde gerekçelendirebildi. Çoğu zaman cevaplar yanlış veya belirsizdi.
- Örneğin, yapay zeka şunu söyledi: Burada iki olamaz çünkü bu satırda zaten iki var, ki bu doğru değildi - dedi çalışmanın ortak yazarı Dr. Ashutosh Trivedi.
Bazı durumlarda yapay zekanın tahtadaki sayı kombinasyonlarını görmezden geldiğini veya saçma açıklamalar ürettiğini de sözlerine ekledi. Örneğin, Sudoku üzerine bir sohbet sırasında modellerden biri aniden hava durumu tahmini verdi.
Dr. Trivedi, "Yapay zeka tamamen kafası karışmıştı ve tuhaf tepkiler veriyordu" dedi.
Yazarlara göre, araştırma sonuçları yapay zekânın etkileyici başarılarına rağmen, özellikle hassas muhakeme gerektiren görevlerde ona tam olarak güvenilemeyeceğini gösteriyor.
"Birçok kişi yapay zeka modellerinin beklemediğiniz yeni yetenekler geliştirdiğinden bahsediyor. Ancak, birçok görevde hâlâ düşük performans göstermeleri şaşırtıcı değil," diye sözlerini tamamladı Anirudh Maiya.
well.pl