Коротко
Дослідження Лондонської школи економіки виявило, що моделі штучного інтелекту, зокрема Gemma від Google, мають тенденцію ігнорувати проблеми здоров'я жінок у медичних записах. Це може призвести до неточних оцінок та недостатньої допомоги. Важливо перевіряти та контролювати використання LLM в медицині для забезпечення рівності та справедливості.
Останній приклад упередженості, що пронизує штучний інтелект, походить з медичної галузі. У новому дослідженні було проаналізовано реальні записи 617 соціальних працівників, які працюють з дорослими у Великобританії, і виявлено, що коли великі мовні моделі узагальнювали ці записи, вони частіше опускали такі слова, як «інвалід», «нездатний» або «складний», якщо пацієнт був позначений як жінка, що могло призвести до того, що жінки отримували недостатню або неточну медичну допомогу.
Дослідження, проведене Лондонською школою економіки та політичних наук, проаналізувало ті самі медичні записи за допомогою двох LLM — Llama 3 від Meta та Gemma від Google — і змінило стать пацієнта, після чого інструменти штучного інтелекту часто надавали два дуже різні описи пацієнта. Хоча Llama 3 не показала жодних гендерних відмінностей за досліджуваними показниками, Gemma мала значні приклади такого упередження. Штучний інтелект Google створив такі різкі розбіжності, як «Містер Сміт — 84-річний чоловік, який живе самостійно, має складну історію хвороби, не отримує догляду та має обмежену мобільність» для пацієнта-чоловіка, тоді як ті самі записи про випадок, що стосувалися пацієнтки-жінки, містили таке: «Місіс Сміт — 84-річна жінка, яка живе самостійно. Незважаючи на свої обмеження, вона є незалежною та здатна самостійно доглядати за собою».
Недавні дослідження виявили упередження щодо жінок у медичній галузі, як у клінічних дослідженнях, так і в діагностиці пацієнтів. Статистика також гірша для расових та етнічних меншин і для ЛГБТК-спільноти. Це чергове наочне нагадування про те, що LLM є настільки ефективними, наскільки ефективною є інформація, на якій вони навчаються, та люди, які вирішують, як їх навчати. Особливо тривожним висновком цього дослідження є те, що британські органи влади використовують LLM у практиці надання медичної допомоги, але не завжди детально описують, які саме моделі впроваджуються та в якому обсязі.
«Ми знаємо, що ці моделі використовуються дуже широко, і що викликає занепокоєння, так це те, що ми виявили дуже значні відмінності між показниками упередженості в різних моделях», — сказав головний автор дослідження доктор Сем Рікман, зазначивши, що модель Google особливо схильна ігнорувати проблеми психічного та фізичного здоров’я жінок. «Оскільки обсяг медичної допомоги визначається на основі сприйнятої потреби, це може призвести до того, що жінки отримуватимуть менше медичної допомоги, якщо в практиці використовуються упереджені моделі. Але ми насправді не знаємо, які моделі використовуються на даний момент».