• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Вакансии

СТАЖЕР-ИССЛЕДОВАТЕЛЬ (В РАМКАХ ПРОГРАММЫ СТАЖИРОВОК РАБОТНИКОВ И АСПИРАНТОВ РОССИЙСКИХ ВУЗОВ И НАУЧНЫХ ОРГАНИЗАЦИЙ В НИУ ВШЭ)
ДЕДЛАЙН ПОДАЧИ ЗАЯВОК 20 ФЕВРАЛЯ, 2024

Международная лаборатория языковой конвергенции объявляет дополнительный набор студентов (бакалавров и магистров) и аспирантов НИУ ВШЭ на должность стажеров-исследователей. 

В конкурсе могут участвовать только те студенты, которые в 2024 году не участвуют в качестве исполнителей ни одного из проектов международных лабораторий / ЦПИ, включая проекты МЛ, реализуемые в рамках мегагрантов по Постановлению Правительства РФ № 220, и ни одного из проектов тематического плана научно-исследовательских работ (фундаментальных научных исследований), предусмотренных Государственным заданием НИУ ВШЭ на 2024 год.

Студенты/аспиранты принимаются на период с 01 апреля 2024 года по 28 декабря 2024 года с возможным продлением.

Стажеры-исследователи будут приняты для участия в следующих проектах:

1. Создание корпусов малых языков России в формате tsakorpus
В лаборатории собирается много корпусов в формате .TextGrid и .eaf (см. раздел с устными корпусами малых языков на странице с ресурсами лаборатории), и стоит задача превращения их в формат, который будет удобен для хранения на сервере. Предполагается работа с уже существующими корпусами (техническая доработка, поиск ошибок) и создание новых корпусов на платформе tsakorpus. Ожидается, что кандидат владеет навыками автоматического парсинга
.TextGrid и .eaf, а также знаком с инфраструктурой tsakorpus.

2. Исправление ошибок в устных корпусах лаборатории языковой конвергенции
В лаборатории собралось очень много корпусов русского языка (диалектных и билингвальных). Однако корпуса собирались в разное время, так что в ходе работы предполагается проанализировать весь объем корпусов, исправить ошибки разметки и продумать алгоритм препроцессинга корпусов перед загрузкой на сервер. От кандидата ожидается умение чтения данных в формате .TextGrid и .eaf, а также базовое владение инструментами NLP.

3. Дигитализация этимологии андийских языков и привязка к тякущей базе данных
В лаборатории создана база данных андийских словарей. Однако в ней не хватает этимологических данных, которые изданы в виде книги [Мудрак 2020], и ключей, которые позволят соединить полученную базу данных с базой данных Concepticon.  В ходе работы предполагается проведение соединения описанных источников и имеющихся баз данных. От кандидата ожидается усидчивость и умение кропотливо анализировать языковой материал.

Мудрак, О. А. (2020) Андийские основы: Этимологический словарь. Общество с ограниченной ответственностью "Языки Народов Мира".

Подробности по ссылке: https://okna.hse.ru/news/313973936.html


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.