Вакансии
Международная лаборатория языковой конвергенции объявляет дополнительный набор студентов (бакалавров и магистров) и аспирантов НИУ ВШЭ на должность стажеров-исследователей.
В конкурсе могут участвовать только те студенты, которые в 2024 году не участвуют в качестве исполнителей ни одного из проектов международных лабораторий / ЦПИ, включая проекты МЛ, реализуемые в рамках мегагрантов по Постановлению Правительства РФ № 220, и ни одного из проектов тематического плана научно-исследовательских работ (фундаментальных научных исследований), предусмотренных Государственным заданием НИУ ВШЭ на 2024 год.
Студенты/аспиранты принимаются на период с 01 апреля 2024 года по 28 декабря 2024 года с возможным продлением.
Стажеры-исследователи будут приняты для участия в следующих проектах:
1. Создание корпусов малых языков России в формате tsakorpusВ лаборатории собирается много корпусов в формате .TextGrid и .eaf (см. раздел с устными корпусами малых языков на странице с ресурсами лаборатории), и стоит задача превращения их в формат, который будет удобен для хранения на сервере. Предполагается работа с уже существующими корпусами (техническая доработка, поиск ошибок) и создание новых корпусов на платформе tsakorpus. Ожидается, что кандидат владеет навыками автоматического парсинга .TextGrid и .eaf, а также знаком с инфраструктурой tsakorpus.
2. Исправление ошибок в устных корпусах лаборатории языковой конвергенции
В лаборатории собралось очень много корпусов русского языка (диалектных и билингвальных). Однако корпуса собирались в разное время, так что в ходе работы предполагается проанализировать весь объем корпусов, исправить ошибки разметки и продумать алгоритм препроцессинга корпусов перед загрузкой на сервер. От кандидата ожидается умение чтения данных в формате .TextGrid и .eaf, а также базовое владение инструментами NLP.
3. Дигитализация этимологии андийских языков и привязка к тякущей базе данных
В лаборатории создана база данных андийских словарей. Однако в ней не хватает этимологических данных, которые изданы в виде книги [Мудрак 2020], и ключей, которые позволят соединить полученную базу данных с базой данных Concepticon. В ходе работы предполагается проведение соединения описанных источников и имеющихся баз данных. От кандидата ожидается усидчивость и умение кропотливо анализировать языковой материал.
Мудрак, О. А. (2020) Андийские основы: Этимологический словарь. Общество с ограниченной ответственностью "Языки Народов Мира".
Подробности по ссылке: https://okna.hse.ru/news/313973936.html
–
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.