Компаниям, разрабатывающим ИИ-модели, становится все сложнее находить качественные данные для обучения нейросетей. К таким выводам пришли исследователи Массачусетского технологического института.
Компании, занимающиеся разработкой искусственного интеллекта, обычно строят свои модели ИИ на основе большого количества общедоступного контента – от видеороликов на YouTube до газетных статей.
Они «соскабливают» общедоступные данные, большая часть которых защищена авторским правом, и используют его без разрешения. Такая практика понравилась далеко не всем.
И теперь многие из источников информации, такие как The New York Times, начали вводить ограничения на его размещение.
По словам ученых, около 30% наиболее активно поддерживаемых и критически важных источников данных в Интернете теперь ввели ограничения на использование своего контента.
– Если эти ограничения будут соблюдаться, они быстро нарушат законы разнообразия, свежести и масштабирования для систем ИИ общего назначения», – исследователи из MIT.
Еще одним поводом для возмущения авторов стало надменное отношение представителей технологических компаний к результатам их труда.
Так, технический директор OpenAI Мира Мурати, заявила, что некоторые творческие профессии должны исчезнуть – хотя именно контент, созданный этими авторами, является основой таких моделей, как ChatGPT от OpenAI.
Проявленное высокомерие и вызванная им ответная реакция привели к «кризису согласия», как называют это исследователи – это означает, что некогда свободный интернет уходит в прошлое, а модели ИИ будут более предвзятыми, менее разнообразными и менее свежими.
Некоторые компании надеются обойти эти ограничения, используя синтетические данные, которые, по сути, генерируются искусственным интеллектом, но пока что они плохо заменяют оригинальный контент, созданный реальными людьми.
Другие, например OpenAI, заключили сделки с медиакомпаниями, но многие выразили тревогу по поводу этих соглашений -– и не зря, ведь цели технологических гигантов и медиакомпаний расходятся.
Время покажет, чем все это обернется. Но одно можно сказать наверняка: запасы обучающих данных становятся все более ценными и дефицитными.