Araştırma kuruluşu Epoch'un yayınladığı bir raporda, AI'nın büyüyen ihtiyaçlarını karşılamak için gerekli olan veri miktarının, mevcut kaynakları tüketme riski taşıdığı belirtiliyor. MIT Teknoloji İncelemesi'ne göre, "Araştırmacılar daha güçlü modeller inşa ettikçe, onları eğitmek için daha fazla metin bulmak zorunda kalıyorlar."

Sorunun temelinde, AI'nın eğitimi için "yüksek kaliteli" ve "düşük kaliteli" olarak nitelendirilen iki veri kategorisine ihtiyaç duyması yatıyor. Profesyonel yazarlar tarafından üretilen içerikler "yüksek kaliteli" kabul edilirken, sosyal medya gönderileri veya bulanık fotoğraflar gibi veriler "düşük kaliteli" olarak değerlendiriliyor.

Ancak düşük kaliteli veriler, yüksek performanslı AI modelleri eğitmek için yeterli değil. Hatta bu verilerin önyargılı veya yanlış bilgiler içerme riski de bulunuyor.

AI şirketleri, bu tehditle başa çıkmak için çeşitli çözüm yolları arıyor. Google, kendi kullanıcı verilerinden faydalanmayı düşünürken, Meta gibi şirketler yayınevleri satın alarak eski basılı içeriklere erişmeyi planlıyor. Sentetik veri üretimi de bir seçenek olarak öne çıkıyor, ancak bu yaklaşımın da bazı problemleri var.

Yanlış Yapıyorsunuz: Kulaklığınızı Mahveden 8 Kötü Alışkanlık Yanlış Yapıyorsunuz: Kulaklığınızı Mahveden 8 Kötü Alışkanlık

Uzmanlar, algoritmaların iyileştirilmesi ve daha verimli veri kullanımı konusunda da çalışmalar yapılması gerektiğini vurguluyor. Böylece mevcut verilerden daha fazla yararlanılabilir.

Yapay zekanın hızla gelişmesi, onun için temel girdi olan veriler konusunda ciddi bir sorun ortaya çıkardı. Şirketler, bu kritik açığı kapatmak için yoğun bir mücadele vermek zorunda kalacak.