• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Мероприятия

Конкурс грантов на создание звуковых корпусов устных текстов

Международная лаборатория языковой конвергенции Национального исследовательского университета Высшая школа экономики объявляет конкурс небольших грантов на создание звуковых корпусов устных текстов. Заявки по приведенной внизу форме принимаются до 25 июня 2017 года по адресу: nina.dobrushina@gmail.com

Лаборатория заинтересована в корпусах нестандартных вариантов русского языка (региональные варианты тех зон, где имеют место регулярные контакты с другими языками, и любые диалекты), а также диалектных вариантов других языков России и языков бывшего СНГ. Корпуса литературных языков (например, речь дикторов радио или телевидения) не поддерживаются.

Обязательной составляющей является наличие аудиозаписей хорошего качества и расшифровок этих аудиозаписей в программах Praat или Elan (выравнивание текста со звуком для русского языка, глоссирование и перевод на русский или английский языки для других языков).

Расшифровка должна по возможности представлять собой не фонетическую транскрипцию, а запись в стандартном варианте языка, допускающую использование стандартных лемматизаторов (в качестве примера такого ресурса, созданного сотрудниками лаборатории, можно посмотреть Ustja River Basin Corpus (корпус бассейна реки Устья).

Желательной составляющей является наличие глоссирования (особенно в случае корпусов малоисследованных языков).

Обязательным условием гранта является размещение корпуса в интернете в открытом или полуоткрытом доступе. Лаборатория берет на себя размещение корпусов на общем сайте, снабженном поисковым движком. Доступ к сайту может находиться в том числе на странице организации, где работают исполнители. Возможно локальное дублирование корпусов на сервере исполнителей. Мы также предусматриваем долгосрочное хранение всех данных в одном из международных архивов языковых данных.

На сайте корпуса будут указаны имена всех людей, причастных к созданию ресурса, а именно тех, кто записывал, расшифровывал и аннотировал тексты. В обязательном порядке должна также присутствовать ссылка на грант Международной лаборатории языковой конвергенции.

Размер гранта варьируется от 30 000 до 100 000 рублей в зависимости от объема выполняемой работы.

Примеры ресурсов, которые могут быть поддержаны грантом лаборатории:

  • 10-15 часов аудиозаписей любого из диалектов русского языка, расшифрованных в программах Praat или Elan
  • 10-15 часов расшифрованных в программах Praat или Elan аудиозаписей русской разговорной речи из Калмыкии, Чувашии, Грузии, Эстонии или другого региона, где носители русского языка соседствуют с носителями других языков
  • 5-10 часов аудиозаписи диалекта одного из языков России или стран бывшего СНГ, расшифрованных в программах Praat или Elan

Если у вас есть сомнения в том, подходит ли ваш ресурс условиям гранта, обратитесь с вопросами по адресу nina.dobrushina@gmail.com.

Научная комиссия конкурса: Джоханна Николс, Анна Волкова, Михаил Даниэль, Нина Добрушина, Александра Кожухарь, Ольга Ляшевская, Рупрехт фон Вальденфельс.

Комиссия может попросить прислать образец текста и расшифровки для принятия решения. Сроки выполнения работы могут составлять от одного месяца до одного года, и предварительно обговариваются с научной комиссией.

Форма заявки

  1. Имя, фамилия, отчество;
  2. Год рождения;
  3. Место работы или учебы и должность;
  4. Опишите ресурс:
    • Язык и диалект;
    • Место и время записи текстов;
    • Если тексты уже записаны, кто делал записи;
    • Объем текстов;
    • Состояние ресурса в настоящий момент: записаны ли тексты, сделана ли расшифровка и в какой программе, существует ли выравнивание текстов со звуком, отглоссированы ли тексты и как вы оцениваете качество расшифровки, выравнивания и  глоссирования;
    • Если тексты расшифрованы и / или отглоссированы, то кто это делал.
  5. Когда вы планируете предоставить ресурс;
  6. Согласны ли вы на размещение ресурса в открытом доступе; если нет, то почему и какие ограничения доступа вы считаете необходимыми;
  7. Хотите ли вы самостоятельно разместить ресурс онлайн в виде корпуса; если да, то детально опишите, где и каким образом вы будете это делать.