Тривале спілкування з людьми негативно впливає на чат-боти із ШІ: вони "тупішають"

Навіть найрозумніші нейромережі нерідко «губляться» у розмові, коли завдання розбивається на природний діалог із кількох реплік.

2d213e861f13b098aaf29f498de54ae7_21.02.26_1

Популярні чат-боти із штучним інтелектом після тривалого спілкування з людьми починають робити більше помилок, ніби «тупішають» у процесі віртуальної розмови. Пише ТСН. Про це повідомляють Контракти.UA.

Про це свідчить нове дослідження, проведене Microsoft Research спільно із Salesforce, повідомляє Windows Central.

Аналіз понад 200 тисяч розмов із чат-ботами великих мовних моделей демонструє, що сумарний рівень помилок може зрости більш ніж на 100%. Користувачі регулярно скаржаться на «галюцинації» і невірні відповіді.

Нова наукова робота підтверджує: навіть найрозумніші нейромережі нерідко «губляться» у розмові, коли завдання розбивається на природний діалог із кількох реплік.

Під час експерименту експерти вивчили діалоги користувачів із провідними чат-ботами, включно із GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1.

Якщо при одиночних запитах такі моделі демонструють практично 90% успішних відповідей, то у тривалих розмовах з уточненнями та додатковими питаннями показник падає до 65%. Іншими словами, з ускладненням контексту ефективність помітно знижується.

Дослідники виявили ще одне цікаве явище — «роздування відповідей». У багатоходових діалогах відповіді моделей ставали довшими на 20–300%.

Разом з обсягом зростала і кількість припущень та «галюцинацій», які потім закріплювалися в контексті розмови та використовувалися як основа для подальших реплік.

При цьому навіть моделі з розширеними токенами роздуми, такі як OpenAI o3 і DeepSeek R1, не змогли повністю уникнути цього ефекту.

Автори підкреслюють, що різке погіршення якості в довгих бесідах не означає, що моделі «тупішають» у буквальному значенні — швидше, це вказує на їхню обмеженість у утриманні та правильній інтерпретації великого обсягу інформації під час діалогу.

Як зазначає Windows Central, такі особливості слід враховувати під час використання чат-ботів у продуктах, орієнтованих на тривалу взаємодію з користувачем. Можливі помилки та галюцинації можуть ввести людей в оману, особливо якщо користувач покладається на ШІ як джерело точної та критично важливої інформації.

Станом на теперішній час ChatGPT займає понад 80% світового ринку чат-ботів. Найближчі суперники — Perplexity та Google Gemini. На них припадає частка у 15% від усіх користувачів.

Нагадаємо, раніше американські науковці за результатами онлайн-опитування дійшли висновку, що часте спілкування з чат-ботами зі штучним інтелектом може становити серйозну загрозу для ментального здоров’я. У людей, які щоденно використовують подібні технології, фіксують значно вищий ризик появи симптомів депресії, тривожності та дратівливості.