DeepSeek, Yeni Modeliyle Dengeyi Yeniden Sarsabilir
DeepSeek’in makalesinde, “Manifold-Constrained Hyper-Connections” (mHC) adında yenilikçi bir derin öğrenme mimarisi tanıtılmıştır. DeepSeek’in kurucusu Liang Wenfeng ile birlikte Zhenda Xie, Yixuan Wei ve Huanqi Cao tarafından imzalanan bu çalışma, büyük sinir ağlarında eğitim sırasında karşılaşılan kararsızlık ve ölçeklenme sorunlarını azaltma hedefindedir. Araştırmacılara göre, mHC mevcut yaklaşımlara oranla daha tutarlı bir eğitim süreci sunmakta ve ek hesaplama maliyetleri olmadan daha büyük modellere ölçeklenme imkanı tanımaktadır. Bu da, büyük dil modellerinin eğitim maliyetlerinin düşürülmesine önemli bir katkı sağlamaktadır. DeepSeek-R1’in dikkat çeken yönü de bu alandaki başarısıydı.
DeepSeek’in geliştirdiği mimari, ByteDance araştırmacılarının 2024 yılında tanıttığı “hyper-connections” (hiper bağlantılar) yöntemine dayanmaktadır. Bu yöntem, günümüzün pek çok büyük dil modelinin temelini oluşturan ResNet mimarisinde bilginin katmanlar arası doğrudan iletimine imkan tanıyarak sinyallerin daha tutarlı ilerlemesini sağlamaktaydı. Ancak ByteDance’in önerdiği yapı, özellikle devasa modellerde önemli bellek yükü yaratması nedeniyle pratikte ölçeklenme sorunlarına yol açıyordu. DeepSeek’in çalışması, bu yapıyı daha uygulanabilir hale getiriyor.
DeepSeek Yeni Modelini Bu Mimariyle Geliştiriyor
mHC mimarisinin en belirgin farkı, katmanlar arası bilgi akışını rastgele genişletmek yerine, bunu belirli matematiksel kurallar doğrultusunda tanımlanmış bir uzay (manifold) içinde tutmasıdır. Bu yaklaşımla, “identity mapping” denilen ve sinir ağlarındaki sinyallerin katmanlardan bıkmadan geçmesini sağlayan kritik özellik yeniden kazanılmaktadır. Araştırmacılar, bu kısıtlama sayesinde sinyallerin ne bozulduğunu ne de kontrolden çıktığını belirtiyor; bu da eğitim sürecinin çok daha kararlı olmasını sağlıyor. mHC mimarisi 3 milyar, 9 milyar ve 27 milyar parametreli modellerde test edildi ve önemli ek hesaplama yükleri olmadan başarıyla ölçeklendiği gösterildi.
DeepSeek’in yayımladığı bu tür teknik makaleler, yaklaşan yeni modelin habercisi olarak algılanıyor. Liang Wenfeng, önceki modelleri piyasaya sürmeden önce benzer makaleler paylaşmıştı, bu nedenle yeni modelin de bu mimari üzerine şekilleneceği düşünülüyor. Beklentileri artıran bu modelin tanıtım tarihi kesinleşmemiş olsa da 17 Şubat’tan önce tanıtılması bekleniyor.
