Почеток „Буки“ ќе биде бесплатен, засекогаш, за сите

„Буки“ ќе биде бесплатен, засекогаш, за сите

umno.mk
0 коментари
A+A-
Ресетирај

Тоа што пред 20 години беше незамисливо, денес станува реалност со новата дигитална платформа базирана на вештачка интелигенција

Реченици и зборови изговорени на македонски јазик во транскрибирана форма, пренесени со мали и големи букви и интерпункциски знаци овозможува „Буки“ – новата дигитална платформа базирана на вештачка интелигенција. Тоа што пред 20 години беше незамисливо, денес станува реалност. Алатката ќе им ја олесни работата на многу научници, истражувачи, новинари, јазичари, на луѓе од различни професии. Моделот го развија Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска,

Системот вчера беше свечено пуштен во употреба.
– Системите за препознавање на говор се делат на конвенционални и на End-to-end модели. „Буки“ припаѓа на втората категорија. Колку е подобар енкодерот, толку е полесна задачата на декодерот да направи транскрипт на говорниот материјал – ги објасни Порјазовски основите според кои работи „Буки“.

Според него, моделите Буки-w2v2 и Буки-Whisper се базирани на енкодер-декодер архитектура. Задачата на енкодерот е да го трансформира аудиото во формат погоден за декодирање. Декодерот, од друга страна, го користи трансформираното аудио за да генерира транскрипт. Буки-w2v2 и Буки-Whisper се адаптирани верзии на веќе постоечките Wav2vec2 и Whisper со тоа што ги тренирале со наши ресурси на македонски јазик.

– Постоечкиот модел Wav2vec2 е развиен од Мета и тој е тренира на 53.000 часа аудио. За време на тренингот моделот маскира дел од аудиото и потоа се обидува да го реконструира маскираниот сегмент. На овој начин моделот учи да распознава разни карактеристики во аудиото. Бидејќи овој модел не е трениран на транскрипција на говор, треба да го адаптираме. Wav2vec2 го користевме како основен модел, адаптиран за препознавање руски говор, а потоа тој модел го трениравме со наши податоци за препознавање македонски говор – објасни Порјазовски.

Тој додаде дека како мерна единица користеле Word Error Rate, односно процент на грешни зборови во транскриптот (помал процент=подобар модел). Буки-w2v2 и Буки-Whisper постигнаа резултат од 9,0, односно 8,1, далеку подобри од Whisper на OpenAI, кој постигна 24.5 и MMS од Metal, кој постигнал 20.1.

Стиков посочи дека создавањето на овој модел е од исклучителна важност за него, првично од лични побуди, а потоа и поради важноста за зачувување на македонскиот јазик и наследство.

– Илјадници часови на снимени материјали се распаѓаат во влажните ќошиња на македонските институции чекајќи да бидат пребарливи и индексирани. Моделот „Буки“ е првиот чекор кон зачувувањето на ова богатство. Трениран е со само 60 додатни часа говор, но веќе е далеку подобар од конкуренцијата. Моделот ќе биде бесплатен, засекогаш, за сите корисници, институции и индивидуалци – потенцираше Стиков.

Ректорката на УКИМ, проф. д-р Биљана Ангелова рече дека создавањето на платформата е „патриотски придонес“ на УКИМ и на ЦеНИИс.

– Овој модел може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), но и на лица со хендикеп. Се надеваме дека ќе најде примена и во многу дигитални алатки кои го прават нашиот живот полесен. Во моментов ја презентираме првата верзија на дигиталниот модел за македонски литературен јазик, но тимот кој го изработи моделот е детерминиран да се изработи и втора верзија, за транскрипција на дијалектите на македонскиот јазик, која ќе придонесе за научноистражувачката работа на УКИМ, но и ќе ги зачува дијалектите за наредните генерации – рече Ангелова.

Проф. д-р Илина Јакимовска, раководителка на Институтот за етнологија и антропологија при Природно-математички факултет – УКИМ, рече дека Дигиталниот архив на етнолошки и антрополошки ресурси на Институтот за етнологија и антропологија при ПМФ содржи над 1250 часа аудиоматеријал, рачно транскрибиран во ворд-фајлови (главно, теренски интервјуа и усни сведоштва), голем број визуелни материјали, музичка збирка и дигитализирани ракописи од наши поранешни професори и донатори.

– Чест ни е што дел од аудиоснимките и нивните преписи учествуваат во моделот „Буки“ и тоа со 40 отсто од неговиот тренинг. При нивниот избор се внимаваше тие да се од различни делови на Македонија, односно да се на повеќе дијалекти, со говорници од различни пол и возраст. Со тоа во „Буки“ се индиректно вградени и архаизми и гласови на луѓе кои веќе не се меѓу нас. Така, преку овој производ се среќава технологијата на иднината со културното наследство на минатото. За тренинг на моделот се користени и 17 целосни броеви од меѓународното списание на Институтот, „ЕтноАнтропоЗум“, снимени во аудиоверзија на литературен македонски, достапни на сајтот на списанието – рече Јакимовска.

Министерот за дигитална трансформација, м-р Стефан Андоновски ја пофали организациската структура на проектот за целокупниот труд да се создаде платформата, посочувајќи дека во свет на брзи технолошки промени промоцијата и заштитата на македонскиот јазик е вистински императив.

– Ова што го правите е вистински патриотски чин. Сега е важно политиката да го препознае ова што го правите вие како наука и да најдеме начин како да ја примениме вештачката интелигенција во дигиталната трансформација на општеството. Но, исто така и да креираме политики коишто ќе значат вистинска примена на вештачката интелигенција во општеството, но на правилен начин, односно да не го изгубиме патот или визијата за тоа како треба да се развиваме и од етички аспект и од правен аспект – рече Андоновски.

Во тренирањето на „Буки“ се употребени оригинални податоци од: Дигиталниот архив за етнолошки и антрополошки ресурси (ДАЕАР) на Институтот за етнологија и антропологија, Природно-математичкиот факултет при УКИМ; аудиоверзијата на меѓународното списание „ЕтноАнтропоЗум“ на истиот институт; аудио поткастот „Обични луѓе“ на Илина Јакимовска; научните видеа од серијалот „Наука за деца“, фондацијата „Кантарот“ и македонската верзија на Mozilla Common Voice (верзија 18.0).

Создавачите на „Буки“ објаснија дека секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила. УКИМ ќе започне кампања „Донирај глас“. Името „Буки“ произлегува од името на втората буква во глаголицата Ⰱ („буки“) – со значење буква или писмо. На англиски јазик, тоа ќе биде транскрибирано со Bookie. Дигиталниот модел е веќе отворен за тестирање. Линк до платформата: https://huggingface.co/Macedonian-ASR

Насловна фотографија: УКИМ

The post „Буки“ ќе биде бесплатен, засекогаш, за сите first appeared on УМНО.МК.

2024 – All Right Reserved. Designed and Developed by infobiro