Наоѓаме делови од „моторот“ на вештачката интелигенција кои вршат дупла, и со тоа непотребна работа, докажуваме дека се вишок и ги отстрануваме, или пак ги заменуваме со унапредени верзии. Така создаваме побрз, поефикасен и попрецизен модел, вели Марко
Марко Карбевски студирал теориска математика. Првата година ја завршил на Институтот за математика при ПМФ во Скопје, по што додипломските студии ги продолжил на Paris Sud 11/Paris Saclay, а магистерските на Сорбона. Антониј Мијоски освојувал медали на национални и меѓународни натпревари по математика. Дипломирал на отсекот за применета математика на Државниот универзитет во Санкт Петербург и бил најдобар студент на магистерските студии по теориска математика - веројатност на Универзитетот во Стразбур.
Заедничко за Антониј и Марко е што годинава два нивни научни труда, работени целосно во Македонија, се прифатени за презентација на две работилници (DELTA и GRAM) во рамките на научната конференција ICLR. Конференцијата годинава се одржa од 23 до 27 април во Рио, Бразил. Во трудот се разгледува архитектурата на моделот трансформер, модел што го користат Чет-ГПТ, Џемини, Клауд и предлага негово подобрување. На конференцијата тие остварија контакт од член од „Опен АИ“ и ни споделија дека имале интересна дискусија.
Марко Карбевски
Според нив, ова е првпат труд изработен целосно во Македонија да биде прифатен на која било од работилниците на трите најзначајни светски конференции за машинско учење и вештачка интелигенција. Другите трудови биле или изработени во странство или со странски соработници.
Приказната на Марко и Антониј почнува од средношколски натпревари по математика, а денес соработката им продолжува со работа на научни трудови.
Нивното истражување се фокусира на трансформери – технологија која стои зад алатки како Чет-ГПТ
ICLR - Меѓународна конференција за учење на репрезентации, NeurIPS и ICML ги сочинуваат „Големите три“ глобални сцени каде што се открива иднината на вештачката интелигенција. Овие врвни академски конференции се платформи за технолошките гиганти и универзитетите да ги прикажат своите револуционерни истражувања во длабокото учење (deep learning). Како и во стандардните научни списанија, и тука работата поминува низ детална рецензија пред да биде одобрена или одбиена.
- Ако некоја иновација има шанси да го промени светот, таа најверојатно ќе дебитира на еден од овие три настани - велат Марко и Антониј.
Антониј Мијоски
Голема радост и успех за нив е учеството на една ваква конференција.
- Не само што учеството на конференцијата ни зависеше од мислењето на рецензентите, туку и ова беше првпат да добиеме формално мислење од научната заедница за тоа што сме го сработиле, притоа без никакво менторство или институционална поддршка во поле каде што просечниот број на автори на еден труд е околу пет. Бевме свесни дека станува збор за квалитетно и искрено изработен труд, дека станува збор за работилница, но и за недостатоците: експерименталниот пристап имаше простор за подобрувања, дел и подобривме направивме откако беше прифатен и добивме подобри резултати од очекуваните - објаснува Марко.
Нивното истражување се фокусира на трансформери – технологија која стои зад алатки како Чет-ГПТ.
- Кога би направиле појаснување за она што го работиме, интересна паралела е онаа со авионите, кои отпрвин имале повеќе пара крила со цел да се обезбеди поголем потисок (lift). Но, преку законите на аеродинамиката се докажало дека второто крило создава непотребен отпор и може да се отстрани без да се наруши летот. Токму тоа го правиме ние со трансформерите во нашите истражувања. За да обработуваат текст и да разберат кој збор е важен, овие системи користат механизам наречен „внимание“ (attention), кој традиционално се потпира на три главни математички компоненти: Query -Q (Прашалник), Key - K (Клуч) и Value - V (Вредност).
Во нашиот прв труд математички докажавме дека тежината за креирање на првата компонента, Query, е структурно непотребна. Исто како второто крило кај старите авиони, таа врши работа која мрежата веќе може да ја компензира преку другите свои делови. Резултатот е модел кој ги задржува истите перформанси, но користи 25 % помалку параметри во тој дел од мрежата. Во вториот труд одиме чекор понатаму. Откако покажавме дека стандардното „линеарно крило“ е вишок, заклучивме дека ако веќе трошиме ресурси на тој дел од моделот, тоа треба да биде за нешто што навистина додава вредност. Затоа, ја заменивме оваа компонента со нелинеарна проекција. Ако се вратиме на авионите, ова е како заменување на бескорисното огромно второ крило со високоспецијализирани предни крилца (canards) кои нудат нова контрола и перформанси. Оваа промена овозможи моделите да бидат постабилни при тренирањето и да покажат конзистентно подобрување во однос на стандардните системи во опкружувањето кое го тестиравме. Накратко за пошироката публика: наоѓаме делови од „моторот“ на вештачката интелигенција кои вршат дупла, и со тоа непотребна работа, докажуваме дека се вишок и ги отстрануваме, или пак ги заменуваме со унапредени верзии. Така создаваме побрз, поефикасен и попрецизен модел - вели Марко.
Вештачката интелигенција е многу скапа
Првиот труд (прифатен на DELTA), изработен од Марко Карбевски во коавторство со Антониј Мијоски, докажува дека во досегашната архитектура на вештачката интелигенција постои математички вишок на одредени компоненти.
- Најпрвин да назначиме дека вештачката интелигенција е многу скапа: еден силен процесор чини околу 50.000 евра, а потребни ви се илјадници за да помислите да направите нешто што наликува на Чет-ГПТ. Дополнително, овие процесори трошат незанемарливо многу струја, а потребно е и да се ладат. Замислете дека сте отстраниле дел кој сте мислеле дека е корисен, без тоа да е случајот. Тој дел троши гориво и ја отежнува изведбата на задачата. Доколку го отстраните, добивате вештачка интелигенција која работи побрзо и троши помалку струја и графички картички за еднаков квалитет на тоа што го имаме досега - вели Марко.
Вториот труд (прифатен на GRAM), каде што Марко е единствен автор, предлага нов начин на кој вештачката интелигенција ги обработува податоците, користејќи нелинеарност, како последица на првиот труд.
- Во вториот труд истражувањето преминува од елиминација на непотребниот втор пар крила кон воведување специјализирани „канарди“, малите предни крила со високи перформанси кои се користат кај модерните млазни авиони за супериорна контрола. Трансформери се ограничени од „тесно грло“ бидејќи нивните компоненти Прашањето (Q), Клучот (K) и Вредноста (V) се линеарно неразделиви, и со тоа се принудени да се движат во таа зависност. Понудената промена ѝ помага на патеката за Query понезависно да креира покомплексни форми од тоа што беше возможно досега. Дополнително, постигнатите перформанси со оваа нова архитектура се карактеризираат како „тешки победи“ во ефикасноста. Конкретно, нелинеарните модели ги надминуваат моделите што поседуваат за 12,5 % повеќе компоненти. Понатаму, покажано е дека овие модели т исклучителна имаат структурна стабилност; тие остануваат конзистентни дури и кога се тренираат со стапки на учење до пет пати повисоки од оние што ги толерираат традиционалните дизајни - објаснува Марко.
На прашањето дали ова значи дека идните ВИ модели ќе станат подостапни и поевтини за користење, Марко изјавува:
- Имаме силна индикација за тоа дека преку отстранување на дуплираната работа и раздвојување на внатрешните компоненти, трансформерите можат да станат значително помоќни без да се зголеми нивната потрошувачка. Од друга страна, за жал, не би очекувале дека ова би ја намалило вкупната потрошувачка бидејќи технолошките гиганти во моментов се во трка за подобар резултат речиси по секоја цена, па ако нешто може да е помало, но со еднаков квалитет, гледаат да го направат поголемо и уште поквалитетно - вели Марко.
Фото: приватна архива
Оваа содржина е заштитена со авторски права. Фотографиите се од сопствени извори или од платени сервиси. Секоја употреба, копирање, преземање, репродукција или дистрибуција, целосна или делумна, без претходна писмена дозвола од редакцијата, е строго забранета и подлежи на законска одговорност. Бесплатно преземање е можно само на првата третина од текстот, со јасно наведен извор и линк до изворниот текст во првата реченица. Факултети.мк ги почитува професионалните/етичките стандарди, Кодексот на новинарите и Принципите на Меѓународната федерација на новинарите.