DeepSeek neden bu kadar ucuza mal oldu?

Dünya genelinde kullanıcılara sunulur sunulmaz Amerikalı rakiplerini sollayan, ABD’nin teknoloji hisselerini çakılmasına yol açan Çinli DeepSeek’in asıl sırrı ne?

Fikir Turu · DeepSeek neden bu kadar ucuza mal oldu?

Dünyada DeepSeek fırtınası esiyor. Çinli girişim DeepSeek tarafından yaratılan yeni ve güçlü bir açık kaynak yapay zekâ modeli geçtiğimiz birkaç gün içinde Silikon Vadisi’ni sarstı. Son teknoloji ürünü yeteneklerle dolu olan ve sadece 5,6 milyon dolarlık küçük bir bütçeyle geliştirilen DeepSeek’in R1’i, teknoloji endüstrisinde taşları yerinden oynattı. Uygulama birkaç saat içinde yüzbinlerce kişi tarafından indirilirken, uygulamayı indirenlerin sayısı ChatGPT’yi indirenleri aştı. Aynı gün ABD’de teknoloji hisseleri yüzde 3’ün üzerinde değer yitirdi. Wired dergisi, uzmanlarla konuşarak DeepSeek’in sırrını ve yapay zekâ alanına getirdiklerini sorguladı.

Yazıdan öne çıkan bölümleri aktarıyoruz:

“Bazılarına göre DeepSeek’in yükselişi ABD’nin yapay zekâ alanındaki üstünlüğünü kaybettiğine işaret ediyor. Ancak aralarında dünyanın en güçlü öncü yapay zekâ (YZ) modellerinden bazılarını inşa eden ve özelleştiren şirketlerin yöneticilerinin de bulunduğu bir dizi uzman, bunun “farklı bir teknolojik geçiş sürecine” işareti olduğunu söylüyor.

Paradigma değişiyor

YZ şirketleri, giderek daha fazla miktarda bilgi işlem kaynağı gerektiren daha büyük ve daha büyük modeller yaratmaya çalışmak yerine, artık daha çok akıl yürütme gibi gelişmiş yetenekler geliştirmeye odaklanıyor. Bu da DeepSeek gibi dışarıdan milyarlarca dolar yatırım almamış daha küçük ve yenilikçi girişimler için bir fırsat yarattı. Özel yapay zekâ modelleri oluşturma ve barındırma konusunda uzmanlaşmış bir şirket olan Databricks’in CEO’su Ali Ghodsi, “Bu, akıl yürütmeye doğru bir paradigma değişimi ve bu çok daha demokratikleşecek” diyor.

Cohere’in kurucu ortaklarından Nick Frosst, “Bir süredir, yalnızca sınırsız hesaplama gücü kullanarak değil, inovasyon geliştirerek ve daha fazla verimlilik sağlayarak bir sonraki büyük teknolojik atılımın gerçekleşeceği açıktı. İnsanlar bunun uzun zamandır farkındaydı,” diyor.

Binlerce geliştirici ve yapay zekâ meraklısı, şirketin en son modelini denemek için son günlerde DeepSeek’in web sitesine ve resmi uygulamasına akın etti ve sosyal medyada sofistike yeteneklerinin örneklerini paylaştı. Çip üreticisi Nvidia da dahil olmak üzere ABD’li teknoloji firmalarının hisseleri, yatırımcıların yapay zeka gelişimine akıtılan büyük meblağları sorgulamaya başlamasıyla 27 Ocak’ta ciddi oranda düştü.

Amerikalı YZ şirketleri maliyet şoku yaşıyor

DeepSeek’in teknolojisi, Çin’de ülkenin en iyi performans gösteren kantitatif hedge fonlarından[1] birinden çıkan nispeten küçük bir araştırma laboratuvarı tarafından geliştirildi. Geçtiğimiz Aralık ayında internette yayınlanan bir araştırma makalesinde, daha önceki DeepSeek-V3 büyük dil modelinin oluşturulmasının sadece 5,6 milyon dolara mal olduğunu ve rakiplerinin benzer projeler için ihtiyaç duyduğu miktarın çok altında olduğunu iddia ediyor. OpenAI daha önce bazı modellerinin her birinin 100 milyon dolara mal olduğunu söylemişti. OpenAI’nin yanı sıra Google, Anthropic ve Meta ‘nın en son modellerinin maliyeti muhtemelen çok daha fazladır.

DeepSeek’in modellerinin performansı ve verimliliği, bazı büyük teknoloji firmalarında maliyetlerin düşürülmesinden söz edilmesine yol açtı bile. Meta’da çalışan ve kamuoyu önünde konuşma yetkisi olmadığı için adının açıklanmasını istemeyen bir mühendis, teknoloji devinin büyük olasılıkla DeepSeek’in tekniklerini inceleyerek kendi yapay zekâ harcamalarını azaltmanın yollarını bulmaya çalışacağını söylüyor. Meta sözcüsü yaptığı açıklamada, “Açık kaynak modellerinin sektörde önemli bir değişim yarattığına ve bunun da yapay zekanın faydalarını herkese daha hızlı ulaştıracağına inanıyoruz. Açık kaynak yapay zekâ alanında Çin’in değil ABD’nin lider olmaya devam etmesini istiyoruz; bu nedenle Meta, 800 milyondan fazla indirilen Llama modellerimizle açık kaynak yapay zekâ geliştiriyor.” dedi.

Ancak DeepSeek’in yeni modellerini geliştirmenin gerçek bedeli bilinmiyor, zira tek bir araştırma makalesinde verilen bir rakam maliyetlerin tam resmini yansıtmayabilir. Cohere ve diğer yapay zekâ firmalarına yatırım yapan Thomvest Ventures şirketinin genel müdürü Umesh Padval, “6 milyon dolar olduğuna inanmıyorum, ancak 60 milyon dolar olsa bile, bu bir oyun değiştirici. Tüketici yapay zekâsına odaklanan şirketlerin karlılığı üzerinde baskı yaratacak.” dedi.

Bilgiyi ‘damıtarak’ elde ediyor

DeepSeek’in en son modelinin ayrıntılarını açıklamasından kısa bir süre sonra Databricks’ten Ghodsi, müşterilerin kendi kuruluşlarında maliyetleri düşürmek için DeepSeek’in temel tekniklerinin yanı sıra bu modeli de kullanıp kullanamayacaklarını sormaya başladıklarını söylüyor. DeepSeek mühendisleri tarafından kullanılan ve ‘damıtma’ olarak bilinen yöntem, büyük bir dil modelinden elde edilen çıktının başka bir modeli eğitmek için kullanılmasını içeriyor. Bu yaklaşımın nispeten ucuz ve basit olduğunu ekliyor.

Padval, DeepSeek’inki gibi modellerin varlığının sonuçta yapay zekâya daha az harcama yapmak isteyen şirketlere fayda sağlayacağını söylüyor, ancak birçok firmanın hassas görevler için bir Çin modeline güvenme konusunda çekinceleri olabileceğini belirtiyor. Şimdiye kadar en az bir önde gelen YZ firması, Perplexity, DeepSeek’in R1 modelini kullandığını kamuoyuna duyurdu, ancak “Çin’den tamamen bağımsız” olarak barındırıldığını söylüyor.

Kullanıcılar etkilendi

Yapay zekâ kodlama araçları sağlayan bir girişim olan Replit’in CEO’su Amjad Massad, WIRED’a yaptığı açıklamada DeepSeek’in en yeni modellerini etkileyici bulduğunu söyledi. Antropik’in Sonnet modelinin birçok bilgisayar mühendisliği görevinde daha başarılı olduğunu düşünse de R1’in, özellikle metin komutlarını bilgisayarda çalıştırılabilir kodlara dönüştürmede üstün performans sergilediğini fark etti. “Bunu özellikle ajan muhakemesi için kullanmayı araştırıyoruz” diye ekliyor.

DeepSeek’in son iki ürünü, DeepSeek R1 ve DeepSeek R1-Zero, OpenAI ve Google’ın en gelişmiş sistemleriyle aynı türden simüle edilmiş akıl yürütme yeteneğine sahip. Hepsi de problemleri daha etkili bir şekilde ele almak için onları oluşturan parçalara ayırarak çalışıyor. Bu da yapay zekânın güvenilir bir şekilde doğru cevaba ulaşmasını sağlamak için önemli miktarda ek eğitim gerektiren bir süreç.

Büyük modellerden küçük modellere

DeepSeek araştırmacıları tarafından geçen hafta yayınlanan bir makale, şirketin R1 modellerini oluşturmak için kullandığı yaklaşımı özetliyor ve bu modellerin bazı kıyaslamalarda OpenAI’nin o1 olarak bilinen çığır açan akıl yürütme modeli kadar iyi performans gösterdiğini iddia ediyor. DeepSeek’in kullandığı taktikler arasında doğru problem çözmeyi öğrenmek için daha otomatik bir yöntemin yanı sıra becerileri daha büyük modellerden daha küçük modellere aktarmak için bir strateji de yer alıyor.

DeepSeek hakkında en çok spekülasyon yapılan konulardan biri de kullanmış olabileceği donanımdır. Bu soru özellikle dikkat çekicidir çünkü ABD hükümeti son birkaç yıldır Çin’in gelişmiş yapay zekâ oluşturmak için gerekli olan son teknoloji çipleri edinme ve üretme kabiliyetini sınırlamayı amaçlayan bir dizi ihracat kontrolü ve diğer ticari kısıtlamalar getirmiştir.

Amerikan çiplerine dayanıyor

Ağustos 2024 tarihli bir araştırma makalesinde DeepSeek, Ekim 2022’de açıklanan ABD kısıtlamaları kapsamında yerleştirilen 10 bin Nvidia A100[2] çipinden oluşan bir kümeye erişimi olduğunu belirtti. Aynı yılın Haziran ayına ait ayrı bir makalede DeepSeek, DeepSeek-V2 olarak adlandırılan daha önceki bir modelin, ABD ihracat kontrollerine uymak için Nvidia tarafından geliştirilen daha az yetenekli bir bileşen olan Nvidia H800 bilgisayar çipleri kümeleri kullanılarak geliştirildiğini belirtti.

Büyük yapay zekâ modellerini eğiten bir yapay zekâ şirketinden, profesyonel ilişkilerini korumak için adının açıklanmasını istemeyen bir kaynak, DeepSeek’in teknolojisini oluşturmak için muhtemelen yaklaşık 50 bin Nvidia çipi kullandığını tahmin ediyor.

Nvidia, DeepSeek’in hangi çiplerine güvenmiş olabileceği konusunda doğrudan yorum yapmayı reddetti. Nvidia sözcüsü yaptığı açıklamada “DeepSeek mükemmel bir yapay zekâ ilerlemesidir” dedi ve girişimin akıl yürütme yaklaşımının “önemli sayıda Nvidia GPU ve yüksek performanslı ağ gerektirdiğini” ekledi.

DeepSeek’in modelleri nasıl inşa edilmiş olursa olsun, yapay zekâ geliştirmeye yönelik daha az kapalı bir yaklaşımın ivme kazandığını gösteriyor gibi görünüyor. Aralık ayında, yapay zekâ modellerine ev sahipliği yapan bir platform olan HuggingFace’in CEO’su Clem Delangue, Çin’in büyük ölçüde benimsediği açık kaynak modellerinde gerçekleşen inovasyon hızı nedeniyle Çinli bir şirketin yapay zekada liderliği ele geçireceğini öngörmüştü ama “Bu düşündüğümden daha hızlı oldu” dedi.”

Bu yazı ilk kez 31 Ocak 2025’te yayımlanmıştır.

Wired sitesinde yer alan “DeepSeek’s New AI Model Sparks Shock, Awe, and Questions From US Competitors” başlıklı yazıdan bölümler Mustafa Alkan tarafından çevrilmiş ve editoryal katkısı ile yayına hazırlanmıştır. Yazının orijinaline aşağıdaki linkten erişebilirsiniz.
https://www.wired.com/story/deepseek-executives-reaction-silicon-valley/

[1] Matematiksel modeller, algoritmalar ve veri analitiği kullanarak yatırım kararları alan yatırım fonları… (Çev.n.)

[2] Nvidia, merkezi Kaliforniya’nın Santa Clara kentinde olan bir Amerikan teknoloji şirketidir. (Çev.n.)

YORUMLAR

Subscribe

0 Yorum

Eskiler

En Yeniler Beğenilenler

Inline Feedbacks

View all comments