Ecehan Ersöz Tüm Yazıları

Sokrates’ten Hawking’e yapay zeka modellerinde “Fast Fashion” yarışı

30/01/2025 19:24

Yapay zeka modellerinin gelişimi resmen süpersonik bir hızla ilerliyor. Meta, Antrophic, OpenAI ve diğer firmalar sürekli bir rekabet halindeyken sahneye yeni bir oyuncu çıktı malumunuz Deepseek. Fakat kendisinin bu çıkışıyla ve ChatGPT’nin önüne geçerek birinci sırayı almasıyla borsayı ve teknoloji devlerinin hisse değerlerini aşağı indirmesi bir oldu.

Birkaç gündür biz bunu tartışırken birden Alibaba’nın daha iyi bir model çıkardığı yönündeki haberleri aldık. Çinli teknoloji devi Alibaba, yapay zeka modeli Qwen 2.5’in, DeepSeek V3’ten daha iyi performans gösterdiğini iddia ettiği bir versiyonunu duyurdu.

Ben gelinen bu durumu “fast fashion” modaya benzetiyorum. Bir yapay zeka dil modeli çıkıyor daha 2-3 haftası dolmadan ya kendi markasınca ya da rakip bir marka tarafından yetkinlik anlamında ötesine geçiliyor. Modeller kullanıldıkça sorgulandıkça eğitimleri ilerliyor, parametreleri ve yetkinlikleri artarak, resmen öğrenci gibi bir sonraki sınıfa geçiyorlar.

Sorgu demişken aklıma hemen ünlü düşünür Sokrates’in sorgulamaya verdiği önem ve o ünlü sözü geliyor. “Sorgulanmamış hayat yaşamaya değmez”. Sorgulama, doğru soruları sorma artık günümüzde hem insanlar hem de yapay zeka için artan bir öneme sahip. Sorgular yapay zeka için kullandığımız promptlar yani istemler oluyor. Arka plandaki teknik yapı doğru sorgulandıkça o derece bağlamsal noktada da kendini geliştiriyor. Diğer yandan doğru soruyu sorma, cevap beklendiğimiz bir soruya dair doğru parametreleri seçmiş olmamızla da ilişkili. Doğru soru o kadar şifalı bir şey ki hem soran öğreniyor hem sorulan.

DEEPSEEK’İN STEPHEN HAWKİNG İLHAMI

Stephen Hawking, “Zeka, değişime uyum sağlama yeteneğidir” diyor. Yaptığı bu tanım günümüzde insan zekasının devrede olduğu her konu gibi yapay zeka içinde geçerli gibi görünüyor. Zira Deepseek’in hamlesi bu durumun açık bir göstergesi. Birkaç hafta önce göreve gelen Donald Trump’ın yapay zeka çiplerine dair duyurduğu kısıtlama Çin içinde geçerliydi ve büyük bir değişimdi. Zaten her iki ülke yapay zeka konusundaki rekabette iki büyük rakip durumundalar. Belli bir periyotta yayınlanmış yapay zeka makalelerine bakıldığında neredeyse konunun etkilediği her sektörde bu iki ülkenin yayını ağır basıyor.

Deepseek hamlesi ise burada “değişim yönetimi” anlamında inanılmaz bir rövanş ortaya koydu. Çin hem piyasaya yeni bir oyuncu çıkardı hem de çip üreticisi Nvidia’nın hisseleri de diğer teknoloji devleri gibi büyük oranda değer kaybetti. Fortune listelerinde 50 yıl önce olanlar olmayanlar konuşulurken artık bu sürelerin yeni vakalarla daha da kısalacağını düşünüyorum. Dolayısıyla zeka ve değişime uyum noktasından baktığımızda Deepseek maliyetlerde ciddi bir optimizasyon ve verimlilik sağlamasıyla bir başarıya imza attığını duyurdu.

Çip kısıtlamasıyla gelen donanımsal değişime yazılım güçlendirmeyle verdiği değişime uyum mesajıyla. DeepSeek’in paylaştığı bilgiler doğrultusunda OpenAI, Meta, Google ve Antrophic gibi rakiplerinin en az 100 milyon Dolar harcadığı modeli eğitme maliyetini 5.8 milyon Dolara, kullanılan GPU sayısını 100 binden 2 bine düşürerek en az onlar kadar iyi bir model geliştirmeyi başardıklarına dair bilgiler paylaşıldı.

DEEPSEEK’İ YAKINDAN TANIYALIM

DeepSeek’i yakından tanıyacak olursak 2023 yılında Çin’in Hangzhou şehrinde kurulan bir yapay zeka araştırma şirketi. Şirketin kurucusu ve CEO’su Liang Wenfeng, daha önce High-Flyer adlı bir kuantum yatırım fonunun lideriydi. DeepSeek de aynı zamanda yapay genel zeka (AGI) alanında öncülük hedefiyle dil modeli geliştiriyor.

Konunun OpenAI tarafından ise modellerinden bilgi damıttığına dair kanıtlar olduğunu ve bunun kullanım şartlarını ihlal ettiğini ve fikri mülkiyet haklarını ihlal ettiğine dair açıklamalar yapıldı. IBM’ye göre ise “Bilgi damıtımı, büyük ve önceden eğitilmiş bir modelin (öğretmen modeli) öğrendiklerini daha küçük bir ‘öğrenci modeline’ aktarmayı amaçlayan bir makine öğrenimi tekniği. Bu yöntem, özellikle büyük ölçekli derin sinir ağları için model sıkıştırma ve bilgi transferi yöntemi olarak derin öğrenmede kullanılır. Aslında uygulamalardaki kurallara benzer modelden modele şeklinde.

Zeka, öğrenme, düşünme sonsuz bir yolculuk…Zeka ve değişime uyum bakalım bize daha neler getirecek, konuya dair ne gelişmeler, açıklamalar olacak hep birlikte göreceğiz.