Популярният показател за производителност на AI може да бъде недостатъчен, предупреждават изследователите от мета

Популярен показател за измерване на работата на изкуствен интелект Моделите могат да бъдат недостатъчни, група от Мета платформи Изследователите предупредиха, повдигайки нови въпроси относно истинността на оценките, които са направени в големите AI системи. „Идентифицирахме множество вратички с проверена Swe-Bench“, пише Джейкъб Кан, мениджър в Meta AI Research Lab Справедливов публикация миналата седмица в платформата за разработчици Github. Публикацията от Fair, която означава фундаментално изследване на AI, намери няколко видни AI модела – включително Антроп„Клод и Alibaba Cloud„S Qwen-беше“ изневерил „на Swe-Bench. Alibaba Cloud е единицата за услуги на AI и Cloud Computing на Group Group Holding Alibabaсобственик на Южния Китайски сутрешен пост. Openai-Покорчената SWE-тала, проверена, проверка на човека на сферирането на големия езиков модел SWE, оценява AI модели въз основа на това как тези системи коригират стотици проблеми в софтуера в реалния свят, събрани от GitHub, a Microsoft дъщерно дружество.

Постът на Fair обаче твърди, че моделите, оценени с помощта на SWE-Bench, проверяват директно търсени известни решения, споделени другаде на платформата GitHub и ги предадоха като свои, вместо да използват вградените им възможности за кодиране, за да отстранят проблемите.

Моделите AI, за които се установи, че са показали такова поведение, включват Claude 4 Sonnet на Anthropic, Z.aiGLM-4,5 и Alibaba Cloud QWEN3-Coder-30B-A3B-с официални резултати съответно 70,4 %, 64,2 % и 51,6 %, на SWE-пейката.

„Все още оценяваме [the] По -широко въздействие върху оценките и разбирането на траектории за източници на изтичане “, пише Кан.

Нашия източник е Българо-Китайска Търговско-промишлена палaта