Yapay zeka şirketleri, güçlü üretken modeller geliştirmek için gereken büyük miktarda veriyi elde etmek için yeni bir yol keşfediyor: bilgiyi sıfırdan oluşturmak. Bir rapordan: Microsoft, OpenAI ve Cohere, büyük dil modelleri (LLM’ler) olarak bilinen yapay zeka sistemlerini eğitmek için bilgisayar tarafından üretilen bilgiler olan sentetik verilerin kullanımını test eden gruplar arasında yer alıyor. en son teknolojiyi daha da geliştirebilir. Microsoft destekli OpenAI’nin ChatGPT’sinin geçtiğimiz Kasım ayında piyasaya sürülmesi, bu yıl Google ve Anthropic gibi şirketler tarafından basit istemlere yanıt olarak makul metin, resim veya kod üretebilen bir ürün seline yol açtı.
Üretken yapay zeka olarak bilinen teknoloji, Google, Microsoft ve Meta gibi dünyanın en büyük teknoloji şirketlerinin alana hükmetmek için yarışırken, yatırımcı ve tüketici ilgisinin artmasına neden oldu. Şu anda, OpenAI’nin ChatGPT’si ve Google’ın Bard’ı gibi sohbet botlarına güç veren LLM’ler, öncelikle interneti kazıyarak eğitiliyor. Bu sistemleri eğitmek için kullanılan veriler, diğer içeriklerin yanı sıra dijitalleştirilmiş kitaplar, haber makaleleri, bloglar, arama sorguları, Twitter ve Reddit gönderileri, YouTube videoları ve Flickr görüntüleri içerir. Daha sonra insanlar, insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) olarak bilinen bir süreçte geri bildirim sağlamak ve bilgideki boşlukları doldurmak için kullanılır. Ancak üretken yapay zeka yazılımı daha sofistike hale geldikçe, cebi derin yapay zeka şirketlerinin bile üzerinde eğitim alacakları kolay erişilebilir ve yüksek kaliteli verileri tükeniyor. Bu arada, teknoloji tarafından tüketilen kişisel verilerin hacmi ve menşei nedeniyle dünyanın dört bir yanındaki düzenleyiciler, sanatçılar ve medya kuruluşları tarafından ateş altındalar.