Как татарстанские разработчики создали онлайн-переводчик башкирского языка

73d436e32984028e25a5440b5b161183Институт прикладной семиотики Академии наук РТ в сотрудничестве со специалистами из Башкортостана создал русско-башкирский машинный переводчик «Башкортсофт». Директор института Ринат Гильмуллин рассказал о том, что показал опыт сотрудничества с башкирской стороной, а также об общих проблемах татарского и башкирского языков.

«Сотрудничество с Башкортостаном вылилось в разработку русско-башкирского машинного переводчика»

 Расскажите, в чем заключается ваше сотрудничество с научным сообществом тюркских народов.

– Как уже отмечалось, мы ведем совместную работу с представителями различных тюркских народов. Ежегодно, начиная с 2013 года, активно проводим конференцию по компьютерной обработке тюркских языков под названием «TurkLang», представляем на ней свои лучшие научно-исследовательские и прикладные разработки. Благодаря этому сформировалось мощное сообщество представителей науки Татарстана и других тюркских народов.

Оно сейчас активно развивается. Например, в этом году в конференции приняло участие более 100 ученых, занимающихся исследованиями в области компьютерной обработки языков. Уже есть совместная деятельность с казахами, киргизами, узбеками, чувашами и крымскими татарами в виде разработки машинного переводчика, корпусов электронных словарей. Также, например, с участием казахов, турок, киргизов и узбеков были реализованы электронные тезаурусы тюркских языков для создания систем многоязычного поиска и извлечения знаний.

Хочу также отметить, что такого рода совместные исследования и разработки дают огромную пользу и для развития как нашего татарского языка, так и других тюркских языков.

 Можете подробнее рассказать о сотрудничестве с башкирской стороной?

– Мы стараемся помогать всем, кто к нам обращается. Сотрудничество с Башкортостаном у нас вылилось в отдельную разработку в виде веб-портала русско-башкирского машинного переводчика.

Вообще создание машинного переводчика – это весьма науко- и трудоемкий процесс, который нельзя реализовать без участия специалистов и разработчиков различного профиля. Задействованы и филологи, и программисты, и ученые как с татарстанской, так и с башкортостанской стороны. И благодаря совместной работе, использованию передового опыта удалось разработать уникальный продукт. На сегодняшний день этот сервис является одним из лучших по качеству перевода в русско-башкирской паре.

«С нашей стороны – разработка моделей и алгоритмов, реализация веб-сервиса, со стороны башкирских коллег – лингвистический ресурс»

 А с кем именно вы работали при создании «Башкортсофта»? Это был какой-то институт или организация?

– Это представители различных как научных, так и общественных организаций, ученые, разработчики, лингвисты, переводчики – специалисты разного профиля. Подбором специалистов по заданным нами требованиям занимался Фонд по сохранению и развитию башкирского языка (создан указом главы Башкортостана в 2018 году. – Ред.).

– В какую сумму ему это обошлось?

– Эту информацию можно найти на официальном сайте «Гранты Республики Башкортостан» («Создание веб-сайта башкирско-русского и русско-башкирского переводчика с функционалом озвучивания башкирских текстов». – Ред.).

– Как выбирался человек, озвучивающий текст?

– Данная работа, так же как и подготовка данных для машинного обучения, проводилась нашими башкортостанскими коллегами. С нашей стороны – разработка моделей, алгоритмов и собственно реализация веб-сервиса, исполнение и контроль над полным циклом технологического процесса. Со стороны же башкирских коллег был предоставлен весь необходимый лингвистический ресурс для создания переводчика.

– Пригодились ли наработки, полученные при создании «Татсофта»?

– Задачей разработки систем машинного перевода мы занимаемся уже более 20 лет, начиная от создания rule-based систем и заканчивая совместной работой с компанией «Яндекс» по созданию статистического машинного переводчика. То есть использовался весь опыт создания такого рода систем, от разработки лингвистических моделей до реализации алгоритмов на основе нейронных сетей.

– А как вы работали над «Татсофтом»? Сколько времени заняло его создание, сколько ваших людей было задействовано?

– В разработке русско-татарского машинного переводчика в общей сложности приняло участие более 30 специалистов различного профиля – разработчики, лингвисты, переводчики. Работы по подготовке лингвистических ресурсов для переводчика были начаты еще в 2014 году, первая версия общедоступного нейросетевого переводчика была запущена в начале 2020 года. Работа не останавливается и по сей день. Система постоянно развивается и совершенствуется.

– А сколько ваших людей было задействовано в работе над «Башкортсофтом»?

– С нашей стороны пять специалистов. Сколько со стороны башкирских коллег – у меня нет точной информации.

«Говорят, на сегодня это лучший русско-башкирский переводчик»

– Какие сложности возникали в ходе работы?

– Основная задача при построении переводчика, учитывая малоресурсность наших языков, связана с подготовкой достаточного объема лингвистических данных (моноязычный корпус, русско-башкирский параллельный корпус и словари). Должен отметить, что наши башкортостанские коллеги хорошо справились с этой задачей и в достаточно сжатые сроки смогли предоставить весь необходимый материал для реализации переводчика.

– Довольны ли вы результатом? Что говорят рядовые пользователи, если с ними уже есть обратная связь?

– Промежуточными результатами можно быть довольным. Автоматическая метрика оценки качества перевода имеет достаточно высокие показатели. От пользователей также приходят положительные отзывы, говорят, что на сегодня это лучший русско-башкирский переводчик. В то же время мы понимаем, что для его развития и для повышения качества перевода работы должны вестись постоянно и непрерывно.

– Что вообще показала эта работа, какие выводы вы из нее сделали?

– Сейчас, к сожалению, приходится констатировать тот факт, что наши языки, в том числе и татарский, и башкирский, относятся, как я уже сказал, к малоресурсным языкам. И вот лишь такого рода совместные разработки в виде создания популярных и востребованных сервисов мирового уровня позволяют нам получать новые лингвистические ресурсы и взращивать своих высококвалифицированных специалистов. Что, безусловно, является важной задачей для сохранения и развития языков в условиях такой масштабной цифровизации.

И чем больше таких разработок, тем больше у нас шансов изменить ситуацию с малоресурсностью наших языков.

Этому способствует и создание веб-портала «Тюркская морфема» на материале семи тюркских языков, реализованного в рамках гранта Российского научного фонда (modmorph.turklang.net). Лингвистические возможности родственных тюркских языков при разработке подобных проектов используются для развития отдельно взятого языка. На основе этих совместных исследований и разработок реализуется система машинного перевода для семи тюркских языков (turk.translate.tatar).

tatar-inform.ru

Просмотров: 1019

Комментирование запрещено