• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Направления научных исследований

Создание устных корпусов нестандартных вариантов русского языка и других языков

В лаборатории создаются устные корпуса диалектов и региональных вариантов русского языка и других языков. Корпуса содержат аудиофайлы и их расшифровки, сделанные в стандартизованной орфографии. Поисковая система позволяет прослушивать фрагменты текстов, содержащие искомое слово или сочетание слов. Для многих корпусов доступны полные тексты. Все корпуса находятся в открытом доступе.

Акустические характеристики смычных согласных в нахско-дагестанских языках

Проект посвящен описанию вариативности, наблюдаемой при анализе акустических характеристик смычных согласных в восточнокавказских языках. По всей видимости, акустические характеристики звуков, которые занимают одинаковые слоты в фонетическом инвентаре различных дагестанских языков (например, абруптивные согласные в арчинском и лакском языках), могут не сильно, но последовательно различаться. Перед нами стоит цель доказать наличие таких различий и их значимость с помощью статистических инструментов. В более широком смысле, мы рассматриваем две гипотезы. Согласно первой, эти различия мотивируются структурными различиями в фонетической системе языка (например, наличия противопоставления сильных и слабых серий смычных). Согласно другой, по крайней мере отчасти различия могут объясняться ареально, подобно тому, как, в макро-перспективе, например юг и север Республики Дагестан различаются системой латеральных согласных. Насколько нам известно, анализ акустических различий или общих черт фонетики языков с ареальной точки зрения является инновационной исследовательской задачей. В рамках данного проекта подразумевается разметка записанных данных, акустический анализ, а также дальнейших сбор данных в рамках последующих экспедиций.

Участники: С. Гравундер, Г.А. Мороз, М.А. Даниэль, В.Р. Жигульская

Квантитативное исследование лексического взаимовлияния в нахско-дагестанских языках

Целью проекта является квантитативное исследования лексического влияния различных языков в Дагестане на микроуровне. Согласно данным проекта о многоязычии в Дагестане, условия и степень языкового контакта индивидуальны для каждого села. Основная цель проекта — обнаружить лексические корреляты этих различий. В рамках проекта был разработан список из 160 лексических единиц, а также метод быстрого сбора в поле. На данный момент список собран от носителей 14 различных языков в 30 дагестанских селах и в 5 селах в Гахском районе Азербайджана, принадлежащих к пяти различным географическим и лингвистическим ареалам. Данные, собранные в соседних сёлах, позволяют не только показать различия в степени соседского влияния на карте, но и выявить зоны влияния определенных языков. Например, несмотря на то, что лексическое влияния тюркских языков (азербайджанский, кумыкский, ногайский) зафиксировано по всему Дагестану, на юге, где азербайджанский долгое время использовался в качестве лингва-франка, это влияние выражено значительно ярче. С другой стороны, на севере Дагестана тюркское влияние в основном распространялось через аварский язык: знание тюркских языков в этом регионе было мало распространено, и почти все тюркские заимствования в местных малых языках отмечены также и в аварском языке. Таким образом, использование унифицированного списка лексических значений позволяет найти количественные корреляты качественных различий между регионами, таких как распространенность тех или иных лингва-франка, наличие и степень контакта с определенными языками, а также миграционные процессы. Материалы проекта доступны в онлайн базе данных.

Участники: М.А. Даниэль, И.Ю. Чечуро, С. Ферхеес, Н.Р. Добрушина

Корпусное исследование вариативности говора Устьянского района

Ustja River Basin Corpus (корпус бассейна реки Устья) представляет собой собрание аннотированных в стандартной орфографии записей интервью с жителями деревни Михалёвская (Пушкино) и некоторых близлежащих деревень на юге Архангельской области. Главная задача исследования, основанного на данных корпуса — моделирование языковой вариативности и динамики утраты диалекта в небольшом сообществе деревенских жителей с помощью изучения отдельных языковых переменных: скорости их утраты, корреляций между ними, степени инновативности/консервативности отдельных говорящих, поведения переменных в речи аутлаеров (носителей, статистически значимо отличных от своей возрастной группы), влияния экстралингвистических факторов и т.д. Такой анализ подразумевает перцептивную разметку огромного объема данных. После первой публикации (см. ниже) в планах проекта находится исследование гендерной вариативности степени диалектности носителей в одной и той же возрастной группе.

Участники: Р. фон Вальденфельс, Н.Р. Добрушина, М.А. Даниэль

Публикации:
Daniel M., P. Kazakova, A. Ter-Avanesova et al. Dialect loss in the Russian North: modelling change across variables. Accepted for publication in “Language variation and change”.

Обработка и анализ данных Атласа многоязычия Дагестана

Целью проекта является обработка данных, собранных на настоящий момент для Атласа многоязычия Дагестана. Таблицы в формате Excel содержат информацию о языковом репертуаре нескольких тысяч людей из 54 дагестанских деревень. База данных опубликована онлайн (multidagestan.com). Исследование нацелено на выявление различных социальных и географических особенностей многоязычия и подразумевает применение статистического анализа. Исследованы особенности распределения многоязычия среди мужчин и женщин. Подготовлена статья, в которой проверяется гипотеза о том, что главным каналом распространения русского языка Дагестане была школа. Готовится статистическое обоснование валидности данных, полученных в ходе сбора данных непрямым опросом (люди описывают языковой репертуар своих покойных родственников).

Участники: Н.Р. Добрушина, М.А. ДаниэльГ.А. Мороз

Публикации:
Dobrushina N., Kozhukhar A. A., Moroz G. Gendered multilingualism in highland Daghestan: story of a loss // Journal of Multilingual and Multicultural Development . 2019. Vol. 40. No. 2. P. 115-132.
Dobrushina N., Daniel M. Field linguistics in Daghestan: A very personal account, in: Word hunters Vol. 194. John Benjamins Publishing Company, 2018.doi P. 79-94

Диалектная дифференциация эвенского языка

Эвенский язык относится к северной ветви тунгусо-маньчжурской языковой семьи. На нем говорит несколько небольших сообществ, расселившихся по территории Северо-Восточной Сибири. Такая рассредоточенность поселений привела к существенному диалектному дроблению с большим многообразием на лексическом, фонологическом, морфологическом и синтаксическом уровнях. Это многообразие можно считать результатом влияния множества факторов: различный уровень сохранности унаследованной вариативности, независимые инновации, контакты с типологически отличными языками. В настоящем исследовании мы сосредоточили свое внимание на двух самых далеких друг от друга эвенских диалектах: самый западный диалект эвенского с высокой степенью сохранности, ламунхинский, на котором говорят в селе Себян-Кюёль в Якутии; и один из самых восточных диалектов – быстринский диалект, на котором говорят в центральной Камчатке. Для обоих диалектов уже созданы отглоссированные устные корпуса: объем ламунхинского корпуса составляет около 52 000 слов, а быстринского корпуса – около 34 000 слов. Для ответа на вопрос о том, как произошло дробление этих диалектов, важно определить, в чем они различаются.

Говоря о диалектных различиях, в первую очередь обычно имеют в виду категорические различия - наличие явления в одном диалекте при отсутствии его в другом. Очевидно, с другой стороны, что по крайней мере архаичные черты диалектов не обязательно утрачиваются полностью, так что диалекты могут различаться частотностью того или иного явления. Частотность может показывать и междиалектные различия, вытекающие из приобретения унаследованными показателями новых функций. На первый взгляд, при наличии корпусов такие различия могут быть относительно легко выявлены. Однако при работе с малыми корпусами проблема заключается в том, чтобы отличить междиалектные отличия от индивидуальных предпочтений отдельных носителей. Начиная с первой публикации по проекту мы работаем со статистическими методами, которые позволяют при выделении различий в частотности учитывать фактор разнородности корпуса. После выделения статистически значимых различий в частотности мы планируем перейти к собственно лингвистической интерпретации этих различий с точки зрения функциональной дивергенции показателей, контактных влияний и типологии грамматикализационных процессов.

Участники: Б. Пакендорф, В.А. АндриянецМ.А. Даниэль

Публикации:
Andriyanets V., Daniel M., Pakendorf B.Discovering dialectal differences based on oral corpora, in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 30 мая — 2 июня 2018 г.) / Под общ. ред.: В. Селегей, И. М. Кобозева, Т. Е. Янко, И. Богуславский, Л. Л. Иомдин,М. А. Кронгауз,А. Ч. Пиперски. Вып. 17(24). М. : Издательский центр «Российский государственный гуманитарный университет», 2018. P. 28-38.

Нестандартный порядок слов в русском языке Дагестана

Цель проекта - исследование нестандартного порядка слов в русской речи билингвов -- носителей языков Дагестана. На данном этапе исследования мы сосредоточились на порядке слов в именной группе с генитивным зависимым. В русском языке монолингвов нейтральным в такой конструкции является порядок слов "вершина + зависимое" (отец друга). В дагестанском русском, напротив, достаточно частотен порядок слов "зависимое + вершина" (друга отец). Наша гипотеза состоит в том, что такой порядок слов возникает под влиянием нахско-дагестанских и тюркских языков, которыми владеют носители дагестанского русского. Все эти языки обнаруживают именно такой порядок слов в генитивной конструкции. Альтернативная гипотеза заключается в том, что частотность порядка слов "генитив + вершина" на самом деле обусловлена скорее жанром и типом текстов, представленных в корпусе дагестанского русского, (устная разговорная речь), чем контактным влиянием. Чтобы проверить эти гипотезы, мы провели сопоставительное количественное исследование именных групп с генитивным зависимым на материале корпуса русского языка Дагестана и на материале устного подкорпуса Национального корпуса русского языка. В рамках проекта планируется выявить и описать на корпусном материале и другие синтаксические особенности русской речи носителей языков Дагестана.

Участники: К. Наккарато, Н.М. Стойнова, А.Б. Панова

Публикации:
Наккарато К., Панова А. Б., Плешак П. С., Стойнова Н. М., Хомченкова И. А. Посессивные конструкции с препозицией генитива в русском языке // В кн.: Анализ разговорной русской речи (АР3-2019): Труды восьмого междисциплинарного семинара. СПб. : Политехника-Принт, 2019. С. 78-83.

Синтаксическая разметка корпусов в формате Универсальных зависимостей

Единообразное представление деревьев зависимостей позволяет проследить синтаксический параллелизм в разных языках и типологию порядка слов. В долгосрочной перспективе мы бы хотели применить количественные методы для систематического изучения эффектов языковой конвергенции. На данный момент собрание банка синтаксических деревьев Универсальных зависимостей (Universal Dependencies treebank) охватывает примерно 40-50 языков, включая русский, белорусский и бурятский (с использованием лицензии Creative Commons). С точки зрения  банка синтаксических деревьев UD, основным вкладом проекта станет разработка инструкций по Универсальным зависимостям для эргативных и полисинтетических языков на базе аннотации корпусов, доступных в лаборатории. Сообщество UD предоставляет нам инструменты для аннотации, валидации и визуализации данных, а также несколько поисковых движков онлайн. В этом проекте мы планируем работу со следующими языками (и языковыми вариантами): мегебский, адыгейский, эвенский, марийский и региональные и разговорные варианты русского языка.

Участники: О.Н. Ляшевская

Публикации:
Droganova, Kira, and Olga Lyashevskaya. Cross-tagset parsing evaluation for Russian. In: Digital Transformation and Global Society Third International Conference, DTGS 2018, St. Petersburg, Russia, May 30 –June 2, 2018, Revised Selected Papers, Part I / Ed. by Daniel A. Alexandrov, A. V. Boukhanovsky, A. V. Chugunov, Y. Kabanov, O. Koltsova. Issue 858. Cham : Springer, 2018. doi Ch. 31. P. 380-390.PDF
Droganova, Kira, Olga Lyashevskaya, and Daniel Zeman. Data Conversion and Consistency of Monolingual Corpora: Russian UD Treebanks. In: Proceedings of TLT 2018 International Workshop on Treebanks and Linguistic Theories, 13-14 November 2018, Oslo, Norway. NEALT Proceedings Series. Linköping University Electronic Press, 2018. P. 52-65.PDF

Интонация и ее вариативность в региональных вариантах русского языка

Целью проекта является документирование, разметка и квантитативный анализ интонационных особенностей спонтанной речи носителей региональных вариантов русского языка. Сложность задачи связана, во-первых, с тем, что на сегодняшний отсутствует полномасштабное описание особенностей интонационных конструкций в нестандартных вариантах русского языка. Во-вторых, недостаточно исследовано и не подтверждено квантитативным анализом взаимное влияние региональной интонации и интонации контактирующих языков. В-третьих, исследование строится не на стерильном материале, записанном в лаборатории, а на полевых записях, что накладывает особые требования к предобработке данных. На основании собираемого материала мы предполагаем разработать многофакторные модели движения частоты основного тона и других характеристик интонации в зависимости от коммуникативного типа интонационной конструкции, пола, возраста и места проживания, а также индивидуальных особенностей говорящих.

Участники: О.Н. Ляшевская, И.Ю. Чечуро

Адыгские изоглоссы

Традиционно выделяемые лингвистами в составе абхазо-адыгской семьи адыгейский и кабардино-черкесский языки часто считаются их носителями единым адыгским языком, который, однако, имеет много вариантов. Цель проекта заключается в исследовании различных изоглосс, обозначающих границы адыгских вариантов, как на основе существующих научных трудов, так и путем полевых исследований. В идеале, по окончании проекта мы хотим иметь базу данных изоглосс, позволяющую сравнить разнообразные адыгские идиомы. На нынешнем этапе проект фокусируется на восточноадыгских (адыгейских) идиомах как в Адыгее и Краснодарском крае, так и в диаспоре (осенью 2017 года была проведена экспедиция к израильским черкесам).

Участники: Ю.А. Ландер, Г.А. МорозП. Фелан, А.И. Федоренко

Создание устного корпуса лугового марийского языка

Лугово-восточный марийский язык принадлежит уральской языковой семье, и на нем говорит около 375 тысяч людей. Целью проекта является создание корпуса разговорного лугово-восточного марийского языка.  Корпус будет основан на аудио- и видеозаписях, сделанных в 2000-2001 гг. группой полевых исследователей из Московского государственного университета. В задачи участников проекта входит как техническая поддержка корпуса (в том числе глоссирование, аннотирование и совмещение орфографической разметки с аудиозаписью), так и анализ данных. Проект посвящен изучению влияния русского языка на лугово-восточный марийский язык.
Участники: А.А. Волкова, М.К. Воронов

Релятивизация в нахско-дагестанских языках: внутригенетические и ареальные перспективы

В нахско-дагестанских языках доминирует причастная стратегия оформления относительных предложений. При этом, хотя причастия могут выражать различные аспектуальные значения, они лишены какой-либо синтаксической ориентации. Синтаксические ограничения на мишень релятивизации отсутствуют: пробел в относительной клаузе может соответствовать как ядерному аргументу, так и одному из периферийных участников ситуации или даже участнику, которого нет в синтаксической рамке глагола; также распространена релятивизация факта, места, времени. Исходя из пилотных подсчетов мишеней релятивизации по нескольким дагестанским языкам, языки ведут себя с точки зрения предпочтений по частотности релятивизации тех или иных аргументов неодинаково. Априори, однако, непонятно, с чем могут быть связаны такие различия: с методикой подсчета, со спецификой конкретных корпусов или же с грамматическими особенностями конкретного языка. В рамках проекта исследование мишеней релятивизации будет проводится на более обширном корпусном материале с применением унифицированной разметки относительных предложений. Будут привлечены к рассмотрению как несколько языков нахско-дагестанской семьи (агульский, арчинский, ингушский, удинский и др.), так и другие языки Кавказа, далекие от них типологически и генетически (адыгейский). Сделанные обобщения позволят проверить утверждения об иерархии аргументов при релятивизации, высказывавшиеся в синтаксической литературе.

Участники: А.А. Волкова, М.А. Даниэль, Ю.А. Ландер, Т.А. Майсак, Дж. Николс

Типология именных словоизменительный категорий

Одной из самых полезных с типологической и географической точки зрения переменных в базе данных Autotyp является словоизменение глагола. Цель нашего проекта состоит в создании такой же базы для существительного. В 2017-2018 годах мы создали базу и провели пилотное исследование Евразии. В этом году мы добавляем в нашу выборку языки из других частей мира и рассчитываем корреляцию между сложностью систем словоизменения глаголов и существительных.

Участники: Е.О. СокурДж. Николс

Типологический атлас языков Дагестана

Языковая ситуация в Дагестане имеет давнюю традицию описания в духе классической и внутригенеалогической типологии. Однако огромный массив данных, собранный в грамматиках, не подвергался до сих пор систематическому анализу с точки зрения распространения языковых структур в географическом отношении.

Целью данного проекта является разработка и реализация инструмента, при помощи которого станет доступна и легко визуализуема информация о географических ареалах языковых структур, характерных для дагестанского языкового ареала. Атлас опирается почти исключительно на данные опубликованных грамматик; он может служить ключом для библиографического поиска интересующего пользователя информации.

В ближайшие задачи проекта входит составление и редактирование карт, разработка визуализации, позволяющей сочетать метаданные, генеалогическую информацию и  значения признака, учёт и оценка источников грамматической информации.

Атлас позволит широкой публике наглядно знакомиться с языковым разнообразием Дагестана и выдвигать гипотезы об ареале и сценариях распространения того или иного явления.

Участники: К.В. Филатов, М.А. ДаниэльГ.А. Мороз

 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.