DeepSeek-R1, son zamanlarda epey konuşulan, en son teknoloji akıl yürütme yeteneklerine sahip açık bir model. Doğrudan yanıtlar sunmak yerine, DeepSeek-R1 gibi akıl yürütme modelleri bir sorgu üzerinde birden fazla çıkarım geçişi gerçekleştirerek düşünce zinciri, konsensüs ve arama yöntemlerini kullanarak en iyi cevabı üreten bir yapısı var. Bu çıkarım geçişleri dizisini gerçekleştirmek – yani en iyi cevaba ulaşmak için akıl yürütme kullanmak – test zamanı ölçekleme olarak biliniyor. DeepSeek-R1, bu ölçekleme yasasının mükemmel bir örneği ve ajanlı AI çıkarım talepleri için hızlandırılmış hesaplamanın neden kritik olduğunu gösteriyor.

Modellerin sorunu tekrarlayarak “düşünmesine” izin verildiğinde, daha fazla çıktı ürettikleri ve daha uzun üretim döngüleri yarattıkları için model kalitesi ölçeklenmeye devam eder. Hem gerçek zamanlı çıkarımı hem de akıl yürütme modelleri olan DeepSeek-R1’den daha yüksek kaliteli yanıtlar almayı mümkün kılmak için önemli bir test zamanı hesaplaması gerekli ve daha büyük çıkarım dağıtımlarını gerektiriyor. R1, mantıksal çıkarım, akıl yürütme, matematik, kodlama ve dil anlama gerektiren görevler için lider doğruluk sunarken, aynı zamanda yüksek çıkarım verimliliği sağlamayı başarıyor.
DeepSeek-R1 NIM mikroservisi, endüstri standardı API’leri destekleyerek dağıtımları basitleştirebiliyor. İşletmeler, tercih ettikleri hızlandırılmış hesaplama altyapısı üzerinde NIM mikroservisini çalıştırarak güvenliği ve veri gizliliğini en üst düzeye çıkarabilirler. NVIDIA AI Foundry ve NVIDIA NeMo yazılımını kullanarak, işletmeler özel AI ajanları için özelleştirilmiş DeepSeek-R1 NIM mikroservisleri de oluşturabilirler.

DeepSeek-R1—Test Zamanı Ölçeklemesinin Mükemmel Bir Örneği
DeepSeek-R1, büyük kapsamlı bir MoE modeli. 671 milyar parametreyi içeren etkileyici bir yapıya sahip—birçok popüler açık kaynaklı LLM’den 10 kat daha fazla—128.000 tokenlık büyük bir giriş bağlamı uzunluğunu destekler. Model ayrıca her katman başına aşırı sayıda uzmana sahip. R1’in her katmanında 256 uzman bulunur ve her token, değerlendirme için paralel olarak sekiz ayrı uzmana yönlendirilir.
R1 için gerçek zamanlı yanıtlar sağlamak, yüksek hesaplama performansına sahip birçok GPU gerektirir ve tüm uzmanlara çıkarım için prompt tokenlarını yönlendirmek için yüksek bant genişliği ve düşük gecikmeli iletişim gerektirir. NVIDIA NIM mikroservisinde bulunan yazılım iyileştirmeleriyle birleştiğinde, NVLink ve NVLink Switch kullanılarak bağlanan sekiz H200 GPU‘ya sahip tek bir sunucu, 671 milyar parametreli DeepSeek-R1 modelini saniyede 3.872 token kadar yüksek hızda çalıştırabilir. Bu verimlilik, NVIDIA Hopper mimarisinin her katmandaki FP8 Transformer Motoru kullanılarak ve MoE uzman iletişimi için 900 GB/s NVLink bant genişliği kullanılarak elde edilir.

Gerçek zamanlı çıkarım için bir GPU’dan her kayan nokta işlemini (FLOPS) almak kritik öneme sahiptir. Yeni nesil NVIDIA Blackwell mimarisi, DeepSeek-R1 gibi akıl yürütme modellerinde test zamanı ölçeklemesine beşinci nesil Tensor Çekirdekleriyle büyük bir destek verecek ve bu çekirdekler, 20 petaflop‘a kadar tepe FP4 hesaplama performansı ve çıkarım için özel olarak optimize edilmiş 72-GPU NVLink alanı sunabilecektir.
DeepSeek-R1 NIM Mikroservisi
Geliştiriciler, artık build.nvidia.com adresinde mevcut olan DeepSeek-R1 NIM mikroservisini deneyimleyebilirler. Nasıl çalıştığını izleyin:
NVIDIA NIM ile işletmeler, DeepSeek-R1’i kolaylıkla dağıtabilir ve ajanlı AI sistemleri için gereken yüksek verimliliği sağlayabilirler.