Kodlama Muamması: OpenAI o1 Programlama Dünyasında Neden Tökezliyor

Bir geliştiricisiniz, parmaklarınız klavyenin üzerinde, en son projenizin üstesinden gelmeye hazırsınız. Kodlamada devrim yaratması beklenen yapay zeka harikası OpenAI’nin o1’i hakkında fısıltılar duydunuz. Heyecan ve şüpheciliğin bir karışımıyla, onu denemeye karar veriyorsunuz. Ancak yazmaya başladığınızda bir şeyler ters gidiyor.

İçindekiler

Vaatler ve Gerçekler
Slow-Mo Hesaplaşması
Halüsinasyon İstasyonu
İki Yapay Zekanın Hikayesi: Mimar ve Geliştirici

İlgili İçerik 👇

Kodlama görevleri için OpenAI’nin o1 modellerinin sınırlamaları hakkında sık sorulan sorular 🎯

Forty Two’da Daha Fazla Yapay Zeka İçeriği 🤖

o1’in ilginç vakasına ve kodlama dünyasındaki beklenmedik tökezlemelerine hoş geldiniz. Bu, geliştirici forumlarında ve teknoloji çevrelerinde dolaşan ve birçok kişinin kafasını kaşıyıp merak etmesine neden olan bir hikaye: Muhakeme konusunda bu kadar başarılı olan bir yapay zeka nasıl olur da kodlama konusunda bu kadar başarısız olabilir?

Gelin bu dijital dramanın içine dalalım ve OpenAI’nin en son buluşunun neden hayalini kurduğunuz kodlama arkadaşı olmayabileceğini ortaya çıkaralım.

Vaatler ve Gerçekler

OpenAI O1’i tanıttığında, teknoloji dünyası için Noel erken gelmiş gibiydi. Bu yapay zekanın dil modellerinin İsviçre çakısı olması gerekiyordu – uyarlanabilir, çok yönlü ve keskin. Ve pek çok yönden, abartıyı karşıladı. Kuantum fiziğini açıklamasını ya da kediniz hakkında bir Shakespeare sonesi yazmasını istediğinizde sizi şaşkına çevirecektir.

Ama sonra olay örgüsü değişti. Geliştiriciler, kodlama söz konusu olduğunda O1’ün son teknoloji bir araçtan çok paslı bir çakıya benzediğini bildirmeye başladılar. İroni mi? Tam da birçok kişinin en parlak olmasını beklediği alanda.

Slow-Mo Hesaplaşması

Bir kodlama koşusu içinde olduğunuzu, parmaklarınızın klavyenin üzerinde uçuştuğunu, fikirlerin dijital bir nehir gibi aktığını hayal edin. Hızlı bir yardım için Chat’e dönüyorsunuz ve… cırcır böcekleri. Korkunç “düşünme” aşaması devreye giriyor ve aniden yapay zeka arafında sıkışıp kalıyorsunuz.

Bu süreçten geçmiş bir geliştirici olan Mike Young durumu açıkça ifade ediyor: “Düşünme aşamasında artan yanıt süresi, özellikle hızlı yanıtlara ihtiyaç duyduğunuzda büyük bir caydırıcı olabilir.” Bir arkadaşınızdan yardım istemek ve onun dakikalarca boşluğa bakmasını izlemek gibi. Üretkenlik için pek de elverişli değil, değil mi?

Ama durun, daha da iyiye gidiyor (ya da bakış açınıza bağlı olarak daha kötüye). Young ekliyor: “Model bazen düşünme modunda takılıp kalıyor ve hiçbir zaman yanıt vermiyor – bu durum zamanın yaklaşık %40’ında gerçekleşiyor.” Ouch. Bu, kodlama arkadaşınızın konuşmanın ortasında uyuyakalması gibi bir şey.

Halüsinasyon İstasyonu

Diyelim ki bir azizin sabrına sahipsiniz ve beklemekten çekinmiyorsunuz. Elbette, cevap buna değecektir, değil mi? Kemerlerinizi bağlayın, çünkü yapay zeka halüsinasyonlarının alacakaranlık kuşağına giriyoruz.

Hacker News‘te bir geliştirici, o1’in mevcut olmayan kütüphaneler ve işlevler bağlamında yanıt vermeye başladığı tüyler ürpertici bir deneyim paylaştı. Bu, yol sorup tek boynuzlu at çeşmesinden sola, çikolata nehrinden sağa dönmenizin söylenmesi gibi bir şey. Yararlı mı? Pek değil.

Geliştirici şöyle yakınıyor: “Her zamanki ‘Kesinlikle haklısınız ve önceki yanıtımdaki dikkatsizlik için özür dilerim’ cümlesi. Muhakeme geliştirilmiş olsa da, bu, modelin ağırlıklarından çıkardığı şeyin gerçek olup olmadığını değerlendirmek için hiçbir yolu olmaması sorununu çözmüyor.”

Başka bir deyişle, ChatGPT kendinden emin görünebilir, ancak bazen kendinden emin bir şekilde yanlıştır. Ve kesinliğin kral olduğu kodlama dünyasında, bu felaket için bir reçetedir.

o1 takes ~70 seconds of "thinking" to fix a bug in the buggy code it generated. And even after this fix the code still doesn't run. I'm not sure I'm willing to wait for so long to get a buggy code in the end.
— Andriy Burkov (@burkov) September 12, 2024

İki Yapay Zekanın Hikayesi: Mimar ve Geliştirici

Ama bekleyin! O1’i tamamen silmeden önce, kodlama destanımızda bir dönüm noktası var. Bazı zeki geliştiriciler Chat’in zayıf yönleri üzerinde çalışırken güçlü yönlerini de kullanmanın bir yolunu buldular.

O1’ü etkili bir şekilde kullanmanın şifresini çözen (kelime oyunu amaçlı) bir yazılım geliştiricisi olan Dan McAteer’e girin. Sırrı ne? O1’i inşaatçı olarak değil mimar olarak kullanın. McAteer, O1’i projelerinin her modülü için ayrıntılı tasarım belgeleri ve adım adım talimatlar oluşturmak için kullandığını açıklıyor.

Ancak asıl önemli nokta şu: McAteer asıl kodlama için Claude Sonnet 3.5’e başvuruyor. Bu, evinizi zeki ama dalgın bir profesöre tasarlatıp sonra da onu inşa etmesi için usta bir marangoz çağırmaya benziyor.

Bu ekip yaklaşımı ilgi çekmeye başlamış gibi görünüyor. Cognosys CEO’su Sully Omar, model’in kodlamada genellikle küçük ayrıntıları kaçırdığını, ancak Claude 3.5’in günü kurtarmak için devreye girebileceğini belirterek bu düşünceyi yineliyor.

My new @cursor_ai workflow:

o1-mini is the Architect – explain my requirements and have it create a detailed design document with step-by-step instructions for each module

Claude Sonnet 3.5 is the Developer – it generates the code based on the architectural document produced by…
— Dan Mac (@DanMcAteer88) September 16, 2024

O1 kodlama bilmecesi bize değerli bir ders veriyor: Yapay zeka, ne kadar gelişmiş olursa olsun, herkese uyan tek bir çözüm değildir. Bu, insan dokunuşunun – yaratıcılığımız, nüansları fark etme yeteneğimiz ve problem çözme becerimiz – kodlama dünyasında yeri doldurulamaz olmaya devam ettiğini hatırlatıyor.

İlerlerken önemli olan, yapay zekanın zayıf yönlerini telafi ederken güçlü yönlerinden nasıl yararlanacağımızı öğrenmek olacaktır. Bu, insan yaratıcılığının yapay zeka ile buluştuğu o tatlı noktayı bulmak ve parçalarının toplamından daha büyük bir kod senfonisi yaratmakla ilgili.

İlgili İçerik 👇

Yapay Zeka Neden Matematik’te Zorlanıyor?

OpenAI ChatGPT o1 Yayınlandı! Yapay Zeka Muhakeme Yeteneklerinde İleriye Doğru Bir Sıçrama

Sonuçta O1 ve kodlamanın hikayesi bir başarısızlık hikayesi değil, yapay zeka ve insan işbirliğinin devam eden evriminde bir bölüm. Teknolojinin hızlı dünyasında, uyum sağlama ve yaratıcı problem çözme becerilerinin hala en büyük değerlerimiz olduğunu hatırlatıyor.

Kodlama görevleri için OpenAI’nin o1 modellerinin sınırlamaları hakkında sık sorulan sorular 🎯

Programlama için o1 modelleri ile ilgili bildirilen ana sorunlar nelerdir?

Yazıda, o1 modellerinin yavaş yanıt verdiği, bazen “takılıp kaldığı” ve hiç yanıt vermediği belirtiliyor. Geliştiriciler ayrıca model’in var olmayan kütüphaneleri ve fonksiyonları çağrıştırması veya hatalı kod üretmesi ile ilgili sorunlar bildirmişlerdir.

Kodlama çalışmaları için o1 modellerinin neden abartıldığı düşünülüyor?

Yeni modelleri muhakeme konusunda mükemmel olsa da, yavaş yanıt süreleri, yanıtların gerçekte doğru olup olmadığını doğrulayamamaları ve takılma eğilimleri, onları hızlı geri dönüş gerektiren çoğu programlama iş akışı için kullanışsız hale getirir. Bu durum, birçok geliştiricinin o1 modellerinin kodlama görevleri için gereğinden fazla satıldığını düşünmesine yol açtı.

Kodlama tamamlama testlerinde o1 modelleri nasıl performans gösterdi?

Canlı kodlama tamamlama testlerinde diğer modellerle karşılaştırıldığında, o1-mini, Qwen2-72B ve o1 gibi daha özel kodlama modellerinin altında yer aldı ve özellikle programlama işleri için uyarlanmış modellerden daha iyi performans gösterdiğini gösterdi.

McAteer’in projesinde o1 ve diğer modeller ne gibi roller oynadı?

Yazıda, McAteer’in muhakeme becerileri nedeniyle mimari tasarım için o1-mini’yi kullandığını, ancak Claude’un programlama üretimi için daha uygun olması nedeniyle model’in tasarımlarına dayalı kod üretmek için Claude 3.5’i kullandığını belirtiyor.

OpenAI neden kodlama için o1 modellerini kullanmak yerine Canvas’ı geliştirdi?

Programlama görevleri için model’in bildirilen sınırlamaları göz önüne alındığında, OpenAI, hız, doğruluk ve yanıt verebilirlik gerektiren programlama uygulamaları için diğer modellerin o1’den daha uygun olabileceğini kabul ederek bunun yerine ChatGPT 4o kullanan bir kodlama platformu olan Canvas’ı başlattı.