Araşdırma: Grok ChatGPT və Gemini-dən qat-qat az “hallüsinasiyaya” yol verir
Çat-botların etibarlılığı ilə bağlı aparılan yeni araşdırma gözlənilməz nəticə ortaya qoyub. Relum aqreqatorunun 2025-ci ilin dekabr ayına aid hesabatına əsasən, İlon Maskın Grok modeli on populyar süni intellekt arasında ən dəqiq cavablar verən sistem olub. Hesabata görə, Grok-un “hallüsinasiyaları” ChatGPT ilə müqayisədə dörd dəfə azdır.Araşdırmanın nəticələrinə əsasən, Grok-un «hallüsinasiya» səviyyəsi cəmi 8% təşkil edir. Müqayisə üçün, ChatGPT-də bu göstərici 35%, Google Gemini-də isə 38% olub. Bu rəqəmlər faktiki dəqiqliyin vacib olduğu tapşırıqlarda həmin modellərin etibarlılığı ilə bağlı suallar yaradır.
Qiymətləndirmə təkcə hallüsinasiyaların sayı ilə məhdudlaşmayıb. Mütəxəssislər həmçinin istifadəçi reytinqlərini, cavabların stabilliyini və sistemin fasiləsiz işləmə səviyyəsini də nəzərə alıblar. Bu meyarlara əsasən, hər bir çat-bota 0-dan 99-a qədər risk balı verilib — bal nə qədər yüksəkdirsə, nəticə bir o qədər zəif sayılır. Grok cəmi 6 bal toplayaraq lider olub: 4,5 istifadəçi reytinqi, stabil cavablar və cəmi 0,07% fasilə buna əsas səbəb kimi göstərilir.
Maraqlıdır ki, ChatGPT bu siyahıda sonuncu yeri tutub və maksimum — 99 risk balı ilə qeydə alınıb. Ondan sonra Claude (75 bal) və Meta AI (70 bal) qərarlaşıb. Eyni zamanda, Çinin DeepSeek modeli Grok-a çox yaxın nəticə göstərib: 14% «hallüsinasiyalar», sıfır fasilə və yekun risk balı 4.
Bu nəticələr göstərir ki, süni intellekt yarışında təkcə populyarlıq deyil, dəqiqlik və sabitlik də getdikcə daha həlledici amilə çevrilir.
The post Araşdırma: Grok ChatGPT və Gemini-dən qat-qat az “hallüsinasiyaya” yol verir appeared first on InfoCity.
