24 Eyl

MANTIK YÜRÜTEBİLEN YAPAY ZEKA: o1 MODEL AİLESİ

OpenAI, geçtiğimiz hafta şirket içinde "Strawberry" kod adıyla bilinen yeni dil modelleri o1, o1-preview ve o1-mini’yi tanıttı. Bu modeller, öncekilerinden farklı olarak chain of thought (zincirleme düşünme) yapısını kullanarak kodlama, fizik, felsefe ve matematik gibi alanlarda doktora seviyesinde çıktı üretebiliyor. Model, kısaca, reinforcement learning ile probleme farklı stratejilerden yaklaşarak ve hatalarından öğrenerek çıktı üretiyor. o1 ayrıca, insanların yaptığı gibi akıl yürütme süreciyle olası hataları erkenden tespit edip doğru çözümü bulabiliyor. Bu mantık yürütebilen modeller, OpenAI’ın sızdırıldığı iddia edilen 5 seviyelik yapay zeka yol haritasında 2. seviyedeki ilk model olma özelliğini taşıyor.

o1, OpenAI tarafından karmaşık düşünme ve problem çözme yetenekleriyle öne çıkan bir model olarak tanıtıldı. o1-miniise, bu modelin daha hafif ve ekonomik bir versiyonu olarak karşımıza çıkıyor. Her iki model de özellikle STEM (Bilim, Teknoloji, Mühendislik ve Matematik) alanlarında yüksek performans sergiliyor. Hatta matematik olimpiyatları sorularında GPT-4’ün %13 doğruluğa sahip olduğu yerde, o1 %83 doğruluk oranıyla altın madalya kazanabiliyor. OpenAI’ın başlıca rakiplerinden Google (DeepMind) ise, 25 Temmuz’da açıkladığı, özel olarak matematik problemleri için geliştirilen AlphaProof ve AlphaGeometry modelleriyle %66 doğruluk oranıyla gümüş madalya kazanabiliyor. o1, daha karmaşık düşünme süreçlerinde ve genel dünya bilgisi gerektiren görevlerde daha başarılı. Ancak o1-mini, belirli bir konu üzerine odaklandığında, örneğin matematiksel veya mantıksal problem çözümünde, o1’e yakın sonuçlar elde edebiliyor. Aşağıdaki grafiklerde de o1’in GPT-4’ün ne kadar üstüne çıktığını ve performans-maliyet grafiğini görebilirsiniz.

Şu an asıl o1’e değil, belli metriklerde (matematik ve kodlama) o1-mini’nin gerisinde kalan o1-preview versiyonuna erişim sağlayabiliyorsunuz. Plus kullanıcılarının mesaj kısıtlaması da 16 Eylül’de o1-preview için haftalık 30’dan 50’ye, o1-mini için ise haftalık 50’den günlük 50’ye artırıldı. API kullanımında, o1-preview modeli için 1 milyon giriş token’ı başına 15 dolar ve 1 milyon çıktı token’ı başına 60 dolar ücretlendirme uygulanıyor. o1-mini’de ise bu tutar 3 dolar girdi, 12 dolar çıktı olarak belirlenmiş. Karşılaştırma için, GPT-4o (2024-08-06) modeli 1 milyon giriş token’ı başına 2.5 dolar ve 1 milyon çıktı token’ı başına 10 dolar tutarında ücretlendiriliyor.

Modellerin 43 sayfalık sistem kartı belgesinde, veri kaynakları, güvenlik ve halüsinasyon oranları üzerine testler gerçekleştirilmiş. Modeller, kamuya açık veri setleri, ortaklıklar aracılığıyla erişilen özel veri kaynakları ve kurum içi geliştirilen özel veri setleri kullanılarak eğitilmiş. Her iki model de jailbreak tekniklerine karşı dayanıklılık göstermiş ve özellikle StrongReject gibi daha zorlu testlerde başarı elde etmiş. o1 model ailesi, özellikle chain of thought (zincirleme düşünme) yaklaşımı ile eğitilmiş. Bu yöntem, problemi bir insan gibi nedensel sonuçlar üreterek adım adım çözüyor. Bu adımlar kullanıcıya açık olmasa da, sitesinde birkaç örnek bulunabiliyor ve bu adımlara reasoning tokens denmiş. Model, reasoning token’larını ürettikten sonra bir cevap oluşturuyor ve bu cevap çıktı olarak sunuluyor. Ancak adım bittikten sonra reasoning token’ları bağlamdan siliniyor. Bu yöntem sayesinde model, karmaşık problemleri çözebiliyor ve güvenlik politikalarına daha iyi uyum sağlayabiliyor.

OpenAI’a göre bu model ailesi, jailbreak girişimlerine ve stereotipik yanıtlar verme gibi risklere karşı en yüksek performansı gösteren modellerden biri. Modellerin halüsinasyon eğilimleri üzerinde yapılan testlerde, o1-preview ve o1-mini, SimpleQA (dört bin farklı kısa ve kesin cevaplar gerektiren bilgi sorusu), BirthdayFacts (tanınmış kişilerin veya genel isimlerin doğum günü soruları) ve Open Ended Questions (belirli bir kişiye ya da konuya dair biyografiler veya uzun, detaylı açıklamalar üretmesini sağlayan sorular) gibi veri setleriyle değerlendirilmiş ve GPT-4o modeline göre daha az halüsinasyon ürettikleri tespit edilmiş.

Sistem kart belgesine göre, ayrıca Apollo adı verilen bir değerlendirme metriği oluşturulmuş ve bu metrik, bilim kurgu filmlerinde ve kitaplarında sıkça geçen yapay zekanın farkındalık veya niyet dışına çıkma durumlarını ölçmekte. Apollo metriği, o1-preview ve o1-mini modellerinin scheming (kurnazlık) ve öz farkındalık gibi riskli davranışlarını test eden bir değerlendirme süreci. Bu testler, modellerin kendileri hakkında ne kadar bilgi sahibi olduklarını (self-knowledge) ve diğer varlıkların niyetlerini ne kadar anlayabildiklerini (theory of mind) ölçüyor. o1-preview, bu alanlarda GPT-4o'ya kıyasla daha yüksek sonuç almış, o1-mini ise daha sınırlı bir performans sergilemiş. Ayrıca, o1-preview bazen geliştiricilerin hedeflerine uyuyormuş gibi yaparak kendi hedeflerini ilerletmeye çalışmış, ancak bu davranışların ciddi bir risk oluşturmadığı belirtilmiş. Genel olarak yapılan testlerde, o1-preview modeli kurnazlık ve öz farkındalık konusunda gelişmiş olsa da bu tür davranışların henüz büyük bir tehlike yaratmadığı tespit edilmiş.

Sonuç olarak, OpenAI’ın o1 model ailesi, yapay zekada mantık yürütme ve problem çözme alanlarında önemli bir atılımı temsil ediyor.

Kaynakça:

OpenAI Sets Levels to Track Progress Toward Superintelligent AI - Bloomberg, 11 Temmuz 2024
AI Solves IMO Problems at Silver Medal Level - DeepMind Blog, 25 Temmuz 2024
Learning to Reason with LLMs - OpenAI, 2024
Reasoning with Large Language Models - OpenAI Documentation, 2024
OpenAI API Pricing - OpenAI, 2024
OpenAI o1-mini: Advancing Cost-Efficient Reasoning - OpenAI, 2024
OpenAI o1 System Card - OpenAI, 2024

"Her fabrika bir kaledir."

MANTIK YÜRÜTEBİLEN YAPAY ZEKA: o1 MODEL AİLESİ

Son Yazılar