Robotlar her zaman en heyecan verici konulardan bir tanesi olmuştur ve sürekli olarak tartışılagelen bir konu olmuştur. Son yıllarda özellikle Boston Dynamics tarafından yayınlanan videolar tüm dünyaya “teknoloji nereye gidiyor ?” sorusunu sordururken, bir yandan da bu kadar özel hareketler yapabilen, videolarda takla atan, koşan bu robotların neden hala gerçek hayatta bir karşılığı olmadığı da akıllarda bir soru işareti olmuştur.
Robotik süreçlere daha önce ilgi duymuş olan herkes Morevec Paradoksunu duymuştur. Bu paradoks, robotların biz insanlar için oldukça kompleks olan görevleri kolaylıkla yerine getirip bize çok basit gelen süreçlerde zorlanması denebilir. Örneğin işlem gücü ve ihtimalleri hesaplayarak en verimli kararı verme konusunda bizler robotların veya yapay zekanın çok gerisindeyiz, ancak atılan bir topu yakalaması istendiğinde robotlar 3 yaşında bir çocuk kadar performans gösteremiyorlar. Bu paradoksun oluşmasındaki ana sebeplerin robotların çevre kontrolü, koordinasyonu ve çevreyi anlayacak veriyi işleme ve anlama kapasitesi ile ilgili olduğu yazılıyor. Tam burada da, AI devreye giriyor.
Boston Scientific tarafından üretilen Atlas robotu oldukça etkileyici bir hareket kabiliyetine sahip ancak Atlas robotunun izlediğimiz görüntülerinin hepsi labaratuvar ortamında çekiliyordu. Bunun sebebi de aslında hareket kabiliyetinin anlık bir reaksiyon veya detaylı bir öğrenme süreci yerine en ince detayına kadar kodlanması ve testler sonucunda bu detayların keskinleştirilmesi üzerine tasarlanmasıydı. İşte tam bu noktada AI tarafındaki son dönemde yaşadığımız gelişmelerin çok önemli bir sıçrama yaratması bekleniyor.
Chat GPT’nin popülerleştirdiği Generative AI uygulamalarının temelinde yer alan öğrenme yazılımının adı, transformer. Transformer’lar, yapay zekanın 21.yy’de çıktığı uzun yolculuğun son durağı denebilir. Veri işleme alanında önemli adımlar atmamızı sağlayan ve sinir ağlarına benzeyen neural network’lerden oluşan makine öğrenmesi mimarileri, transformer’lara kadar çeviri, arama motorları, tavsiye mekanizmaları (bunu mu demek istediniz ?) gibi alanlarda kullanıldı. Chat GPT öncesi dünyada gördüğümüz dijital devrimlerin ve gelişmelerin büyük kısmında rol oynadılar, ancak bugün attığımız adımları atmamızı engelleyen eksikleri vardı. CNN, yani Convolutinal Neural Network yazılımlarında bir görüntü tanıma sürecinde alt özellikler denen kenarlar, köşeler, desenler gibi spesifik özelliklerine odaklanılıyordu ve tüm bunların birleşimi üzerinden bir sonuca varılıyordu, yani belirli bir özelliklere sıra ile odaklanarak görüntü tanıma süreci işliyordu, çok da verimli oldu ve AI süreçlerinde yer aldı. RNN yani Recurrent Neural Network ise sıralı verileri işlemek için yaratıldı. RNN yazılımları bir cümle yazdığınızda sıra ile kelimelerin birbirleri ile bağlantılarını çözümler ve sonraki kelimeyi tahmin eder, yazmak istediğinizi anlar. Ancak sıra ile gidiyor olması içerik uzadığında başı ve sonu arasında kopmalara neden olur, örnek vermek gerekirse “Arkadaşımı bir Beşiktaş maçına götürdüm, onun en büyük hayali buydu” cümlesini anlamaya çalışırken, cümlenin ikinci kısmında yer alan “onun” kelimesinin arkadaşıma tekabül ettiğini anlamakta zorlanabiliyordu. Cümlelerin, içeriklerin başı ve sonu arasındaki kopuklukta yardımcı olması için LSTM yani Short-Long Term Memory yazılımları ile RNN süreçleri desteklendi, çok önemli faydaları oldu ancak bu da en verimli yol olmadı. Sonrasında Google yapay zeka ekibi tarafından 2017 yılında “Attention is All You Need” adında bir makale yayınlandı ve RNN ve CNN modellerinin aksine, attention mekanizmasını sunuyor ve transformer’ları tanıtıldı. Transformerlar, sıralı bir diziyi işlerken yalnızca sırası ile kelimeler arasındaki ilişkiye değil tüm kelimeler arasındaki muhtemel bağlantılara aynı anda bakan ve buradaki bulduğu bağlantılara birer ağırlık veren, bu şekilde metnin tümüne hakim olabilen yapılardır ve bu şekilde dil işleme yetenekleri RNN ve CNN modellerinin çok üzerindedir. Transformerların bu avatanjı sayesinde Chat GPT devrimi gerçekleşti, bu devrimin önemi, ilk kez doğal dilimizde konuştuğumuzda makinaların bizleri bu kadar kolay anlayabilmesi ve konuştuğumuz konu ile bu kadar bağlantılı çıktılar üretebilmesi oldu.
Sanırım transfomerlardan neden bahsettiğim netleşmiştir. Transformerlar sayesinde robotların çevre koşullarını anlama ve sensörlerden, kameralardan gelen verileri işleme hızı ve kalitesi çok ciddi bir şekilde artmış durumda. Bir çok bilim insanı bundan 3 sene önce dahi hayal edilemeyecek bir çok sürecin şimdi gerçekleşmeye başladığını belirtiyorlar ve çevre koşullarına uyum sağlayabilen robotlar için artık “GPT Anı” beklentisi gayet rasyonel.
Tabi ki elimizde transformerlar gibi çok önemli malzemelerin olması hemen bu işin çözüleceği anlamına gelmiyor, uygulama tarafının da netleşmesi bir ihtiyaç. Bugün baktığımızda robotik sektöründe sürekli artan sayıda kendi içerisinde sensörü olan, bir çubuk benzeri uzvu olan basit ve ucuz hardware’lar görüyoruz. Hello Robot tarafından üretilen Stretch bunlardan bir tanesi. Bu hardware konsepti, temel materyelin size verildiği, yazılımın ise open source olarak geliştirilebildiği bir konsept. Bugün yazılımcılar evlerinde bile farklı robot komutları için yapılmış çalışmaları görüp geliştirme şansına sahipler. Bunu da ROS yani Robot Operating System denen platform üzerinden yapabiliyorlar. ROS, Stanford Üniversitesi tarafından yaratılmış bir platform ve robotik süreçlerindeki farklı süreçleri ve komutları içeren birçok çalışmanın olduğu bir kütüphane, AI tarafındaki Hugging face ile benzerlik gösteriyor. Aldığınız robotunuzun, bilgisayarınıza bağlayarak yeni bir kod ile geliştirerek var olan bir komutu daha verimli yapmasını veya yeni komut eklemenizi sağlayan bu sistem robotik alanının gelişmesine oldukça yardımcı oluyor. Open source olarak gördüğümüz bu gelişmeler oldukça önemli, zira GPT modelinin çıkmasına da AI tarafındaki open source gelişmeler ön ayak olmuştu.
Bu gelişmeler elbette gerçek hayat deneyimi olarak bizleri ileriye götürecek ancak robotların nasıl öğreneceği meselesi hala tartışılmaya devam ediyor. Bugün iki tane ana akım var gibi görünüyor, bunlardan bir tanesi insanın taklit edildiği metod, diğeri ise hareketlerin taklit edildiği metot denebilir. İnsanın taklit edildiği metod, tek bir neural ağ üzerinden insan benzeri bir kodlama ile yola çıkılması ve robotların kendi deneyimleri ile deneme yanılma üzerinden öğrenmesi. Diğer metod ise hareketlerin robotlara tek tek gösterilmesi ve bu şekilde beslenerek robotların becerilerinin geliştirilmesi, bu iki metoda biraz daha detaylı bakmaya çalışalım
İnsanın taklit edildiği metod şu anda aslında Nvidia’nın öncelediği metod denebilir, bir ödül mekanizması konuluyor ve verilen komutlarda istenen şeylerin yapılıp istenmeyen şeylerin yapılmaması üzerinden robotun bir yol çizmesi bekleniyor. Bunun yanında hareketleri ve aksiyonları farklı fiziksel koşullarda yapabilmesi için ayrı bir sinir ağı ekleniyor. Bu robotlar, sizleri izleyerek tamamen kendileri otonom bir şekilde öğreniyorlar, içlerinde yer alan transformerlar ve GPT gibi LLM modelleri sayesinde çevresini izleyerek bilgi alıyor, aynı yeni doğmuş bir bebek gibi adapte oluyor. Buradaki bir diğer insan benzerliği, robotun baktığı yer, robotun, yürürken önüne bakması ve kendi içerisinde çevresinin, gittiği yolun muhtemel sonuçlarının hesap edilmesi isteniyor, eğer yürürken bir tümseğe denk gelip takılırsa, bundan çıkarması gereken dersleri çıkarması için programlanıyor. Bu öğrenme metodunda, geliştirme süreçlerinde Nvidia’nın GR00T platformu içerisinde yer alan simülasyon süreçleri kullanılıyor ve düşük maliyet ile doğuştan nelerin farklı öğretilebileceği araştırılıyor ve geliştiriliyor
Diğer yöntem ise Google Deepmind’ın önemli katkılar verdiği ve Tesla tarafından benimsenen bir metod, o da hareketlerin öğretilmesi ve tele-operasyon. Tele-operasyon, sizin uzaktan yaptığınız hareketlerin aynı anda (mümkünse) robot tarafından da gerçekleştiriliyor olması ve robotların bu şekilde öğrenmesi. Tele-operasyon, cerrahi alanında da kullanılan bir metot. Bu alanda Google tarafından geliştirilen VLM yani Vision-Language-Action Model oldukça önemli bir gelişme. RT serisi, yani Robotic transformer yazılımları, hareketleri birer girdi olarak kabul edebilen transformer bazlı modeller. Yani aslında LLM modellerinin aksiyon ve hareketi girdi olarak kabul eden, çıktı olarak yine hareket verebilen hali. Bu inanılmaz model, aynı zamanda daha önce videolarda bahsettiğim chain of though ile geliştiriliyor ve zamanla daha keskin hale geliyor, sonrasında artık modele hareket internet üzerinden yüklenebilir oluyor. Sizlerin sensörler eşliğinde yaptığınız hareketleri görebildiği gibi herhangi normal bir videoda yer alan hareketleri de taklit edebiliyor ve öğrenebiliyor. Görselde görülebileceği gibi kapıyı siz bir kere açtıktan sonra o da aynısın taklit edip gerçekletirebiliyor. Bu öğrenme şekli hızlı yol alabiliyor ve spesifik görevler için adaptasyon gücü yüksek ancak eleştiriler genelde kompleks görevlerde neler yapacağına yönelik, bu nedenle potansiyelini sınırlı gören ve farklı koşullara daha zor uyum sağlayacağını söyleyen bilim insanları ve sektör profesyonelleri mevcut.
Bu iki metot arasındaki farklılıklar, AI ve işlem gücü alanında yaşanan kırılmaların bir sonucu. Muhakkak daha open source olarak görünen ikinci metodun da daha kapalı görünen birincinin de sektöre çok faydası olacak ve işin ekonomik tarafını geliştirecek. Örnek vermek gerekirse Boston Dynamics tarafından geliştirilmiş olan Strech modeli DHL gibi büyük şirketler de dahil bir çok şirketin deposunda tedarik hatlarında kullanılıyor, Spot modeli ise şirketlerin üretim hatlarında hem anlık veri aktarımı ile dijital ikizlerin yaratılmasını sağlıyor, hem de farklı bir çok ölçümü aynı anda yaparak, izleyerek tesislerdeki hata payını minimuma indiriyor. Ful otonom olan bu örneklerin yanı sıra Mobile ALOHA robotunun videolarını izlerseniz onda da ağzınız açık kalacaktır, bu robot ise tele-operating ile eğitilmiş bir robot.
Google gibi Amazon gibi şirketler bu alana ciddi yatırımlar yapıyorlar ve her ne kadar anlattığım open source dinamikleri olsa da belli startuplar ve büyük teknloji şirketleri üzerinden dönen bir sektörden bahsediyoruz. Önümüzdeki günlerde ise muhtemelen büyük teknoloji şirketlerinin ağırlığı daha da artacak çünkü software alanındaki gelişmelerin büyük bir farklılaşma yarattığı, esas kırılımın oradan geldiğini görüyoruz. LLM geliştirebilen Meta, Open AI, Google gibi şirketler bu alanda çok ciddi bir rekabet izletecekler ve muhtemelen kazanan, bu rekabete girme hakkı kazanan herkes olacak, tıpkı Gen AI’da olacağı gibi.
Nvidia GTC konferansı sonrasında yazdığım yazıda odaklanmak istediğim noktayı şimdi daha detaylı anlatabildiğimi düşünüyorum. Nvidia üzerinden yapılmış olan işlem gücü devrimi, tüm hayatımızı kökten değiştirecek. Şirket bu vizyona çok uzun yıllardır sahip olduğu için sistem seviyesi çözümler ve yazılım konusundaki seri adımları ile AI üzerinden gerçekleşecek tüm bu kırılmaların ana aktörü olacak. Sadece Chat GPT değil, aynı zamanda Boston Dynamics robotlarının da olmazsa olmazı Nvidia, kurduğu GR00T platformu ve robotik süreçleri için özel ürettiği Jetson çipleri ile, sektördeki neredeyse tüm oyuncuların iş ortağı, netice olarak işlem gücü üzerinden konuştuğumuz bu robotik devriminde zaten şirketler Nvidia’ya muhtaç. Ancak bakıldığında Tesla’nın geliştirdiği Optimus robotlarını çok daha in-house süreçler ile tasarladığını görüyoruz. Tesla’nın içerideki AI süreçlerini de Nvidia çipleri ve platformları ile test edip kullandığını biliyoruz ancak kendi özel SoC çiplerine tamamen devretme vizyonları mevcut ve Nvidia’nın aksine tamamen kendi yolunda gitme niyetinde.
Burada biraz geçmişe baktığımızda önemli bir örnek ile karşılaşıyoruz o da Çin’in çip sektöründeki atılımları. Çin’in neden bu alanda başarılı olamadığı hep sorulur, nedeni ise korumacı politikalar geliştirme isteğinden geliyor. Çin, yüksek kaliteli ürünler üretse de sektör taleplerine uyum sağlamış formlarda üretim asla yapamadı, yazılımcılardan yeterince beslenmedi, çip tasarım şirketleri ile bağlantısını çok sınırlı tuttu, neticesinde TSMC’yi yakalayamadı. Bulunduğumuz çok hızlı gelişen ve tamamen endüstriyel kapitalist talepten beslenen inovasyonları yakalamak veya parçası olmak için yegâne yol, onlarla iletişimde olmak. Nvidia, tüm sektöre penetre etmiş durumda ve robotik devrimi de onun omuzlarında yükselecek. Şirket, bunu her alanda yaptı ve yapmaya devam ediyor. Açıklanacak olan bilanço açıklamasında Robotik süreçlerine bir vurgu olacak mı göreceğiz, ancak anlatmak istediğim, mesele sadece Chat GPT’den ibaret değil…
Utku Oktay Acundeğer