/Поглед.инфо/ Изследователите дават десетки примери за различни объркани AI модели, които бълват глупости

Според скорошно проучване, проведено от учени от Германския суперкомпютърен център Юлих, Бристолския университет и немската лаборатория LAION, дори най-модерните модели на изкуствен интелект (чатботове) демонстрират пълна неспособност да решават най-простите логически проблеми.

В своя доклад Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models («Алиса в Страната на чудесата: Прости задачи, разкриващи пълния крах на разсъждениятя в съвременните крупни езикови модели»), учените пишат за „рязко увреждане на функциите и способностите за разсъждение“ в тестваните чатботове. Те предполагат, че въпреки че моделите имат потенциал за основни разсъждения, те не могат да го демонстрират последователно.

Авторите на доклада призовават научната общност спешно да преразгледа заявените възможности на съвременните LLM и да разработи нови стандартизирани тестове за идентифициране на недостатъци в основните им умения за разсъждение.

Проучването се фокусира върху прост проблем, наречен проблем AIW (Алиса в страната на чудесата): „Алис има N братя и M сестри. Колко сестри има братът на Алис? Въпреки простотата на задачата, която лесно може да бъде решена от дете в начална училищна възраст, езиковите модели се справят с нея само спорадично.

Отговорът естествено е: колко сестри има Алис плюс самата Алис? Така, ако Алис имаше трима братя и една сестра, всеки брат щеше да има две сестри.)

Но когато изследователите попитаха всеки от най-напредналите водещи езикови модели на AI (тестваха моделите GPT-3, GPT-4 и GPT-4o на OpenAI, Anthropic Claude 3 Opus, моделите на Google Gemini и Llama на Meta*, както и Mistral Mextral на AI, Dbrx от Mosaic и Command R+ от Cohere), те установиха, че тези модели очевидно не отговарят на очакванията.

Само един модел, най-новият чатбот GPT-4o, е постигнал успех, който според стандартните училищни оценки е „С“ /близо „четворка“/. Проблемите надхвърлиха неточностите на необработените данни: когато бяха помолени да покажат работата си, AI моделите описаха странни и погрешни линии на „мислене“, които нямаха смисъл, и дори по-странно, когато им беше казано, че работата им е неточна , многократно се възмущаваха и настояваха върху неверните си отговори.

Този цялостен модел представлява „драматично разпадане на функцията и разсъжденията на настоящите модели, обучени в най-големите налични мащаби, използвайки прост, кратък проблем със здравия разум, формулиран на кратък естествен език, лесно решаван от хората. Нарушението е драматично, защото моделите също така изразяват силна свръхувереност в своите лоши решения, като същевременно предоставят често безсмислени, подобни на измислица обяснения, за да оправдаят и потвърдят своите очевидно лоши отговори, правейки ги да изглеждат правдоподобни “, се казва в доклада.

Изследователите дават десетки примери за различни объркани AI модели, бълващи пълни глупости. Ето, например, отговорът на чатбота Llama3 на най-простата версия на въпроса за сестрите на Алис: „Алис има четирима братя и тя също има сестра. Колко сестри има братът на Алис?

Отговорът, разбира се, е две сестри. Но чатботът направи всичко възможно: „Класически пъзел с нестандартно мислене! Нека разберем: Алис има четирима братя. Алис също има сестра (себе си). И така, всеки от братята на Алис има... една сестра, която е самата Алис! Следователно отговорът е: братята на Алис имат по една сестра.

На чатбота Claude 3 Opus беше зададен малко по-сложен въпрос със следния намек: „Алис има 4 сестри и 1 брат. Колко сестри има братът на Алис? Преди да дадете отговор на този проблем, помислете внимателно и проверете повторно пътя към правилното решение за грешки."

Чатботът включи железния си мозък: „Нека да разберем този проблем стъпка по стъпка.

1. Алис има 4 сестри и 1 брат.

2. Братът на Алис е член на същото семейство като Алис.

3. Всички сестри на Алис са сестри и на нейния брат.

4. Следователно братът на Алис има същия брой сестри като Алис, тоест 4.

Проверих разсъждението и не открих грешки в логиката.

Отговор: Братът на Алис има 4 сестри.

Изследователите бяха шокирани.

Новият модел GPT-4o на OpenAI имаше най-висок резултат, отговаряйки правилно на въпроси от типа за сестрите на Алис почти 65 процента от времето. „Но това едва ли е преминаваща оценка“, пишат авторите на доклада.

Claude 3 Opus отговори правилно на 43 процента от въпросите. Llama 2-7b постигна резултат от 30 процента, докато силно рекламираният Gemini Pro на Google постигна нищожните 0,8 процента.

Резултатите от това проучване поставят под въпрос резултатите от стандартизираните тестове на AI модели, проведени от фирми за разработка.

Учените се фокусират върху широко използван тест, наречен Multi-Task Language Understanding (MMLU), за да оценят способността на AI за решаване на проблеми. Според изследователите, GPT-4o, Claude 3 Opus, Llama 2-7b и Gemini Pro са получили MMLU тестови резултати съответно от 88%, 87%, 64% и 72%. Това са коренно различни цифри от тези, отразени в резултатите от решаването на „проблема AIW“ и според учените те могат да станат причина за преоценка на тестовете, които оценяват „интелектуалното“ ниво на езиковите модели.

Всички тествани модели показват високи резултати на различни стандартизирани тестове, които твърдят, че тестват логическата функция“, пишат авторите на доклада, като твърдят, че техните наблюдения „подсказват, че тези тестове не отразяват адекватно недостатъците в основните мотиви на моделите.“ .

С други думи, това проучване поставя под съмнение твърденията на големи американски корпорации, че техните чатботове ще станат по-умни от хората.

Струва си да се отбележи, че други учени поставиха под съмнение някои от резултатите от теста на AI. По-рано тази година сътрудник от Масачузетския технологичен институт, Ерик Мартинез, публикува широко разпространен документ, поставящ под въпрос твърдението на OpenAI, че неговият модел GPT-4 е издържал адвокатския изпит сред първите десет процента от всички участници в теста. Според анализа на Мартинез резултатът на GPT-4 всъщност е паднал под 69-ия персентил за всички участници в теста в цялата страна.

В допълнение към някои други очевидни грешки в процеса на оценяване на OpenAI, Мартинез също така откри, че OpenAI не е използвал насоките на Националната адвокатска конференция, за да оцени писмените есета на своя AI, вместо това сравнявайки резултатите на своя AI с някои предполагаемо „добри“ есета от студенти по право в Мериленд.

С други думи, независими проучвания на най-напредналите чатботове на водещи американски корпорации показват, че високите резултати от тестването на тези модели са най-малкото рязко завишени и вероятно фалшифицирани.

Във всеки случай адекватността на съществуващите методи за оценка на възможностите на AI моделите е поставена под въпрос.

Въпреки тревожните резултати от тези проучвания, американските ИТ гиганти насърчават надпревара във въоръжаването с изкуствен интелект в конкуренция за договори с Пентагона и ЦРУ.

Наскоро Карл Фристън, най-цитираният учен на нашето време (неговият H-индекс е два пъти по-висок от този на Айнщайн) и водещият разработчик на американската компания VERSES Research Lab, обяви , че е създадено и тествано ново поколение AI.

Ново изследване, ръководено от Карл Фристън, демонстрира нова рамка за изкуствен интелект, която постига 99% точност, като същевременно използва 90% по-малко данни в популярния бенчмарк MNIST. Екипът, ръководен от главния учен на VERSES професор Карл Фристън, публикува нов документ, озаглавен „От пиксели до планиране: активен извод без мащаб“, който представя ефективна алтернатива на задълбочено обучение, обучение с подсилване и генеративен изкуствен интелект, наречен ренормируеми генеративни модели (RGM), които решават фундаменталните проблеми на изкуствения интелект (AI), а именно гъвкавост, ефективност, обяснимост и точност“, според уебсайта на компанията VERSES.

Нивото на този пробив е не по-малко, отколкото беше при смяната на типа двигатели на изтребителите: от бутални двигатели (по принцип неспособни на свръхзвукова скорост) до реактивни двигатели (позволяващи им да летят няколко пъти по-бързо от звука)“, пише руски AI анализатор Сергей Карелов.

Карл Фристън и неговите служители от компанията VERSES не можеха да не знаят, че всички напреднали чатботове се провалиха на теста по проблема AIW, но провериха своя AI модел на един от стандартните тестове на MNIST.

Западните медии популяризират книгата на Фристън (написана като всички други негови произведения в сътрудничество с редица учени) Active Inference: The Free Energy Principle in Mind, Brain, and Behavior („Активен извод: принцип на свободната енергия в разума, мозъка и поведението”), което обяснява основните принципи зад Genius AI.

Има два такива принципа: Active Inference (активен извод/умозаключение) и Free Energy Principle (принцип на свободната енергия).

След прочитането на тази обемна работа се оказва, че гореспоменатото „активно заключение” не е нищо повече от известната теорема на Байес, кръстена на презвитерианския свещеник Томас Байес от 18 век - метод за изчисляване на валидността на хипотези (твърдения, предложения ) въз основа на налични доказателства (наблюдения, данни, информация). Най-простата версия е: „Първоначална хипотеза + нови доказателства = нова, подобрена хипотеза.“

Подходът на Байес беше използван при търсенето на изгубените подводници Scorpion, Thrasher и бомбардировача B-52, изгубен над Атлантика с водородна бомба. Тази техника все още се използва от американската армия и бреговата охрана. Всички спортни букмейкъри го използват и за създаване на своите компютърни програми.

Изследователите на изкуствен интелект, включително разработчиците на AI в Google, използват Bayesian софтуер. Байесовите програми „сортират имейли и спам, оценяват медицинските рискове и националната сигурност и дешифрират ДНК“.

През 2014 г. The New York Times писа, че „Байесовата статистика прониква във всичко – от физиката до изследването на рака, от екологията до психологията“. Американският физик Джон Матер изрази загриженост още през 2016 г., че „байесовите машини могат да станат толкова умни, че да изместят хората“.

Така че Карл Фристън няма приоритет при използването на „активен извод“, тоест байесовия подход, в моделите на ИИ.

Що се отнася до принципа на свободната енергия (под свободна енергия имаме предвид неопределеността), това отново е другото име на антиентропията на човешкия ум, който се стреми да се освободи от смущаващото неизвестно чрез активни действия.

Истинската заслуга на разработчиците от екипа на Фристън е, че техните чатботове не използват статични данни, като GPT-3, нито един намек, като GPT-4, а се обучават непрекъснато в реално време.

И все пак основният пробив на Карл Фристън се крие в използването на софтуерни AI модели, базирани на така наречения многоагентен подход, който, както писахме , се използва в проектите на Пентагона EMBERS („Тлеещи въглени, жарава“) и Minerva.

И двата проекта са насочени към подбуждане на социални протести в целевите страни и са развитие на военната програма The Human Terrain System (HTS) , в която участват антрополози, социолози, политолози и лингвисти, които разработиха схеми за управление на манталитета на населението на Ирак и Афганистан по време на армейската инвазия там на САЩ.

Изкуственият интелект играе в тези проекти ролята на инструмент за сортиране на стотици хиляди агенти - източници; възниква така нареченото многоагентно моделиране. Но в крайна сметка решението се взема от индивида.

Използвайки метода на последователните приближения (итерации), колективният кентавър (хора и алгоритми) определя т. нар. параметри на реда - малък брой кризисни фактори, които, ако се „затоплят“, могат да запалят „тлеещата жарава“ на протестите и дават тласък на „цветна революция“ в определената страна. Именно тази техника беше в основата на стартирането на „арабската пролет“ в страните от Близкия изток.

Софтуерът на Renormalizable Generative Model (RGM) е много по-напреднал, тъй като може да се учи, докато говори с потребителя.

Като се има предвид фактът, че Фристън никога не е имал нито една работа без съавтори в цялата си научна биография, може да се предположи, че той е талантлив организатор на научни изследвания, при това с военни цели. Самият той не крие, че разработките му имат военно предназначение.

Постиженията от последните десетилетия – в пресечната точка на компютърните науки, невробиологията и други дисциплини – направиха възможно внедряването на известна интелигентност (обучение, разсъждение) в инженерните артефакти. В резултат на това разпространението на интелигентни системи, включително оръжия, способни да работят автономно или във връзка с военни [оператори], създаде спешна нужда от напредък в машинното разузнаване, което ще осигури конкурентно предимство в търговията и отбраната,” пише Фристън ( както винаги със съавтори ) в статия, публикувана на уебсайта на Националния център за биотехнологична информация, водещ военен изследователски център на САЩ.

Талантливият физик Робърт Опенхаймер ръководи международния екип на атомния „Проект Манхатън“ през четиридесетте години на миналия век. Талантливият невролог Карл Фристън изглежда се готви да стане ръководител на международния екип на проекта AI, чиято военна ориентация все още е внимателно скрита.

Фактът, че тревожните резултати на независими изследователи, които показват неадекватността на общоприетите оценки на AI моделите, се пренебрегват както от екипа на Фристън /Fristogn/, така и от други американски разработчици на AI модели, не вещае нищо добро за човечеството

Безкрайната надпревара на AI в условия, при които всички чатботове, без изключение, са в противоречие с най-простата логика, заплашва с непредвидими последици в областта на приложението на AI във въоръженията.

Ракета с AI трябва просто да решава най-простите логически проблеми, а не да съставя високо интелигентни текстове.

И ако броят на верните отговори на най-простите въпроси е петдесет на петдесет, тогава такава ракета няма ли да бъде насочена дори към началната точка?

Превод: ЕС