Лабораторией проведен конкурс на создание звуковых корпусов устных текстов
С 30 мая по 25 июня Международная лаборатория языковой конвергенции провела Конкурс грантов на создание звуковых корпусов устных текстов. Речь идет о региональных вариантах русского языка в тех зонах, где имеют место регулярные контакты с другими языками, о диалектах русского языка, а также о диалектах других языков России и языков СНГ. О том, с какой с целью проводился конкурс и почему важно записывать устную речь, рассказывает организатор мероприятия и заведующая лабораторией Нина Добрушина.
Для чего используются подобные корпуса? Почему важно, чтобы в корпусе была зафиксирована именно устная речь?
Многие научные задачи сегодня требуют автоматической обработки больших объемов текста. С письменными текстами достичь этого сравнительно несложно – их можно просто набирать в интернете, хотя и здесь есть свои трудности и ограничения. А вот с устными текстами все гораздо сложнее.
Во-первых, лингвистам нужны записи хорошего качества, то есть сделанные с использованием хороших диктофонов.
Во-вторых, устные тексты нужно расшифровать, а эта задача автоматически пока решается плохо. Есть, конечно, программы, которые распознают звук - переводят устную речь в письменную, но пока даже на основных, литературных вариантах языка они работают с большим процентом ошибок. А уж с нестандартными вариантами – с диалектами, с речью, которая имеет “акцент”, – и вовсе не справляется. Вот, например, результат работы одного вполне современного инструмента, который пытался расшифровать речь бабушки 1922 года рождения, говорящей на севернорусском диалекте:
"теперь в лондон только надо уроки до пруда для здоровья только путину другой мир был бы мир если только мир мир где все тут гибель аль амир все хорошо будет она сильная еще хотел спросить вот о как раньше сорван италии чечен как частными лис был велик был великий его но вы то я так видит его белье погоди а как частными или утром или вечером выметали а избили как воздуха а говорят что то хотела вечером плохо а мы привыкли к нам так нагло теперь в твоем магазине editor редактор газеты принесшей меня найдет я будок а выкидывать худородным идешь куда выкидывали мусор детскому другом а зачем мешок вот моцарта"
Значит, пока такие тексты требуют ручной работы. Их должен расшифровывать исследователь, причем высокой квалификации – тот, кто знаком с диалектом, с особенностями его лексики, фонетики, морфологии. Причем расшифровка должна делаться в особой программе, которая выравнивает звук с текстом. В этой программе исследователь вручную нарезает отрезки звука вместе с соответствующими ему отрезками расшифровки. Тогда потом можно сделать корпус, в котором поиск будет выводить не только на письменный текст, но и на соответствующий ему звук. Это очень важно для многих исследовательских задач.
Поскольку это трудоемкая задача, хороших устных корпусов пока очень мало. Наша лаборатория собирается значительно увеличить количество таких корпусов и параллельно работать над исследованиями, связанными с устными корпусами.
Есть ли какие-то языковые варианты, которые в данный момент представляют наибольший интерес?
Основным научным интересом нашей лаборатории являются языковые контакты. Поэтому нас привлекают в первую очередь такие диалекты, которые находятся на границах языковых зон и испытывают влияние других языков или диалектов. Русские диалекты все испытывают сильнейшее влияние литературного русского языка, так же как и все языки России находятся под влиянием русского языка. Еще нам интересно, какие особенности местных языков отражаются в русской речи тех, кто живет в соответствующих зонах. Очень скоро будет открыт корпус русской речи в Дагестане и начнутся исследования особенностей этой речи.
Существуют ли уже какие-то подобные корпуса, созданные и используемые в рамках лаборатории?
У нас есть образец такого корпуса. Это Корпус бассейна реки Устья (Ustja River Basin Corpus), который был создан в Школе лингвистики с активным участием студентов. На данный момент это самый большой корпус русской диалектной речи, доступный онлайн, в котором можно искать по звуку. На его материале уже написано несколько статей, одну сейчас подаем в очень хороший журнал.
Был ли интерес к конкурсу? Сколько заявок получено?
Первый конкурс пробный, небольшой. Мы не рекламировали его, у нас не было цели собрать много заявок. Мы хотели увидеть, есть ли интерес к таким проектам и какого качества заявки будут поступать. Не будем раньше времени раскрывать результаты, но можно сказать, что конкурс состоялся – заявки есть, и очень интересные.