Исследование вариативности падежного маркирования существительного в конструкциях с числительными на базе проекта DIAL2: интервью с Г. Морозом и К. Наккарато
В сегодняшней беседе Г. Мороз и К. Наккарато отвечают на вопросы о своем исследовании вариативности падежного маркирования существительного в конструкциях с количественными и собирательными числительными на базе проекта DIAL2.

Об исследовании
Не могли бы вы кратко рассказать, в чём заключается исследовательский вопрос статьи и на каких данных вы проверяли ваши гипотезы?
Мы исследуем вариативность падежного маркирования существительного в конструкциях с количественными и собирательными числительными. Это конструкции типа два брата , три часа и т.д. Из литературы уже известно, что в разных вариантах билингвального русского есть вариативность. Это, как правило, описывается как контактное влияние, потому что часто в языке носителей существительные в конструкциях с числительными не маркируются по падежу. У нас есть хорошие корпуса билингвального русского, так что мы решили проверить, что происходит в конструкциях с числительными на наших данных. Мы использовали семь корпусов: дагестанский русский, чувашский, марийский, башкирский, бесермянский, карельский и цыганский. Мы собрали все примеры употребления числительных, убрали лишнее, и проанализировали, где есть нестандартное маркирование, а где нет. Мы добавили несколько параметров разметки - как социолингвистические (год рождения, родной язык, образование и др.), так и не социолингвистические (такие как тип числительного – мы сразу заметили, что есть разница между паукальными, собирательными и другими числительными). В конце мы разметили данные по основным параметрам – падежу, числу и наличию нестандартного маркирования.
А еще мы решили проверить коллокационную меру, то есть частотность каждого конкретного сочетания числительного с существительным. Такие коллокационные меры, к счастью, выдает НКРЯ, поэтому в какой-то момент мы решили использовать их. Но мы сделали некоторый шаг вперед, потому что мы решили взять некоторую усредненную меру коллокационности для всех числительных. Представим себе, что у нас есть пример пять брата пришли или пять братьев пришли . Было бы логичным ходом посмотреть, как часто брат или братья встречаются вместе с пять . Но поскольку существительное брат может встречаться и с другими числительными, мы усреднили его коллокационную меру по всем числительным, с которыми оно встречается – и так сделали с каждым существительным. То есть мы смотрели не только на пять братьев , но и на шесть братьев , семь братьев , восемь братьев – так у нас получается одна мера для слова брат . И то же самое мы делаем для каждой леммы. Дальше по этой мере мы отранжировали существительные. И мы проверяли, будет ли усредненная коллокационная мера связана с вероятностью нестандартного маркирования существительного. Оказалось, что связана. Я решил посмотреть на частотность, когда Кьяра при анализе выделила такое семантическое поле, которое было сложно очертить, потому что, на самом деле, это просто список слов. Мы это видели недавно в докладе Егора Кашкина. Они в каком-то смысле сталкиваются с той же самой группой: это и времена года, и меры, то есть километры, метры и литры.
Мы сразу заметили, что именно эти слова очень редко маркируются нестандартно. Почему? Видимо, потому что сочетания таких слов с числительными очень частотны. И поэтому, когда человек не носитель языка и у него очень большой инпут таких конструкций, наверное, в какой-то момент он просто запоминает всю конструкцию, а не думает каждый раз, какое тут числительное. А вот когда нет такой высокой коллокационности, наверное, все-таки не носитель русского языка может думать, какой падеж нужен. И, наверное, поэтому чаще встречаются нестандартные конструкции.
В статье написано, что в других исследованиях (например, у Екатерины Владимировны Рахилиной или у Наталии Марковны Стойновой) на конструкции с числительными особенно влияют именно контакты, а у вас получается, что сильнее всего влияет частотность. Почему у вас так отличаются результаты?
Ну, мы все-таки не можем сказать, что это не контактное влияние. Часто это выглядит как pattern borrowing, то есть синтаксическая калька. Но дело в том, что если бы это была калька, то было бы везде два брат, пять брат. А на самом деле там иногда два братьев или пять брата . Так что не всегда можно сказать, что это именно калька. То есть у нас контактного влияния не было как предиктора в нашей модели. Но мы не можем сказать, что частотность значима, а контактное влияние нет. Его сложно посчитать и как-то представить. И на самом деле, бессмысленно делить этот фактор на есть контакты / нет контактов. Например, то, что было у Екатерины Владимировны Рахилиной, русский язык в Казахстане, – это совершенно другая картина контакта, не такая, как, например, в Дагестане. Или далекий Дальний Восток, как у Наташи Стойновой – там же тоже совершенно другая история и другие процессы, которые там происходили. Но влияние этих процессов сложно понять по синхронным данным. Для этого нужно большое исследование, которое бы включало разные срезы, но у нас просто нет данных, чтобы сделать такую выборку.
В данных у Рахилиной и у Стойновой наблюдалось больше таких калькирующих конструкций, поэтому они объяснили это контактами. А у нас получается, что всё не так просто. Наверное, мы имели в виду, что это такие явления, которые, если посмотреть поверхностно, можно посчитать контактом. И так все и объясняют: бывают такие конструкции, наверное, это контакт. Но когда начинаешь изучать поподробнее, чаще всего получается так, что не все эти паттерны на самом деле можно объяснить контактами. Поэтому я не уверена, что можно сказать, что у Рахилиной больше контактного влияния, чем у нас. Тем более, что у них даже не количественное исследование, а просто обзор.
В статье вы писали про uniformity Дагестана – расскажите, пожалуйста, в чем это выражается: например, в конструкциях с числительными.
Uniformity Дагестана заключается в том, что больше половины носителей используют нестандартные конструкции. Это отличает корпус дагестанского русского от других корпусов. Например, карельский корпус огромный, даже больше, чем дагестанский, и в нем очень много носителей – но только 15 из них хотя бы иногда употребляют нестандартные конструкции. А в Дагестане нестандартные конструкции в принципе свойственны носителям, а не только отдельным индивидам. Потому что, как нам кажется, дагестанский русский – это всё-таки уже отдельный диалект, поскольку этот ареал вошел в сферу влияния России не очень давно, а потому, особенно учитывая uniformity Дагестана, там уже успел сформироваться свой вариант русского, сильно отличающийся от стандартного
Как Вы выбирали корпуса для Вашей статьи?
Очень просто: взяли всё, что есть в лаборатории, кроме якутского. У нас есть якутский корпус, в котором записано, как люди играют в разные игры, но это просто совсем другой жанр. Этот корпус был сделан для того, чтобы посмотреть, как будет устроено переключение кодов. Это было бы, например, хорошо отдать в Институт русского языка, потому что они как раз переключением кодов занимаются больше и уделяют этому больше внимания, чем мы. Для нас якутский не подходит, потому что там есть смешанная речь на якутском, на русском, но в итоге всё отрывочно и мелко, да и сам корпус маленький. Так что ничего особенного с ним на нашем поле не сделаешь.
О проекте DIAL2
Расскажите, пожалуйста, в чем заключается идея проекта и как он появился.
Я хочу сказать, что этот проект не возник из воздуха, у него есть некоторая подоплека. Всё началось около трех лет назад. В лаборатории скопилось много разных устных корпусов, с которыми мы ничего не делали. И образовалась группа, которую мы называем DIAL2, которая соединяет DIA, диалектный, и L2, билингвальный. В этой группе мы исследуем нестандартные и диалектные варианты русского языка.
Как это происходит: мы выбираем какой-то признак, и смотрим его не по одному корпусу, а по всем корпусам вместе. И изначально была мечта, что найдется что-то общее, что можно смотреть и в диалектных корпусах, и в билингвальных. Но, к сожалению, она рушится на глазах уже три года. То есть нет такого признака, который удобно смотреть и там, и там. Например, когда Кьяра проверила конструкции с числительными на билингвальных корпусах, мы написали статью, а потом начали смотреть со Светой Земичевой на диалекты – и оказалось, что у Светы нашлось что-то свое, не очень соотносимое с тем, что нашли мы. И в результате есть отдельная статья, которую мы сейчас подали в “Вопросы языкознания” и даже уже получили рецензию, так что мы ждем следующий круг. То есть всё время получается, что в диалектных корпусах находится что-то одно, а в билингвальных – что-то другое. Так что нестандартный русский нестандартному русскому рознь.
Но мне интересно было бы посмотреть шире: мы говорим слово "билингвальный", подразумевая, что у человека есть некоторый его первый язык, но при этом у билингвизма есть разные уровни. То есть, например, носитель польского языка, когда будет учить русский язык, будет делать одни ошибки, а носитель итальянского языка будет делать другие ошибки. И если мы мыслим шире, то хочется понять, как устроена эта вариативность и нестандартность, и какие есть сложные места в русском языке. Потому что для билингвальных носителей внутри России, на которых русский язык значительно влияет, свойственен один набор признаков. И поэтому я все жду, когда появятся разные корпуса, которые будут включать что-то вне России. Сейчас у нас есть ассирийский, который был записан в Армении, мы его будем расшифровывать. Но надо расширяться, потому что, когда я слышу речь мигрантов, я вижу, что там есть какие-то редкие вещи, которые в наших корпусах просто не встречаются. Например, ошибки в виде. Мы ожидали, что хотя бы в Дагестане, который всегда более нестандартный, это будет, но оказалось, что почти нет.
Поэтому я мечтаю, что мы будем расширяться и смотреть, во-первых, на те государства и комьюнити, которые входили в Советский Союз – я ожидаю, что там будет какой-то свой уровень владения русским языком – и, во-вторых, на то, что не входило в Советский Союз. Потому что ошибки таких иностранцев будут очень разными. И таким образом, если максимально расширяться в этом проекте, мы подходим уже к преподаванию русского как иностранного: какие в принципе ошибки делают иностранцы.
И не то чтобы до сих пор никто этого не делал. Про это есть исследования, но они обычно тоже связаны с государствами. Например, есть отдельный учебник по русскому языку для Таджикистана. Но как раз для тех этносов, которые можно встретить внутри Российской Федерации, никто не будет делать отдельный учебник русского языка. Поэтому, в каком-то смысле, этот проект ловит что-то, что, может быть, скоро исчезнет, потому что русский язык очень сильно давит на все остальные. И, вероятно, через какое-то время мы не будем видеть разницы в речи тех людей, которые родились в России. Или разница будет какая-то другая, не такая, как сейчас.
Как вы находите новые темы или конструкции, которые вы хотите проверять по корпусам?
Честно? Со скрипом. Есть такая статья про дагестанский русский, которую 15 лет назад написали Нина Роландовна Добрушина, Сергей Владимирович Князев и Михаил Александрович Даниэль. Это такой обзор нестандартных признаков, которые они обнаружили в дагестанской речи. Это было самым началом дагестанского русского корпуса. Там есть большой список разных признаков на всех уровнях языка. И это очень удобно, потому что мы уже знаем, что то, что они описали, есть, по крайней мере, в Дагестане. И часто в литературе о других вариантах билингвального русского встречаются очень похожие признаки. Оттуда мы узнаем, что вообще бывает, и так выбираем, на что можно посмотреть.
Но это не всегда помогает. Во-первых, по разным причинам нам не всегда просто получать данные, которые нам нужны. Во-вторых, иногда из литературы мы знаем, что будет большая вариативность, а оказывается, что она не такая уж и большая.
Стоит сказать также про структуру корпусов: почему мы вообще можем этим заниматься. Потому что это звучащие корпуса, которые кто-то расшифровал. Их можно сравнивать с диалектными, потому что там была проведена некоторая нормализация – хотя, видимо, для нас это не очень важно. Но важно, что, поскольку это русский язык и поскольку все тексты расшифрованы, нам доступно все NLP на русском языке. И если нам нужно что-то, то мы пробегаемся морфологическими и синтаксическими анализаторами, и получается, грубо говоря, очень большая таблица, которую нужно отфильтровать. Поэтому, когда мы понимаем, что нужно сделать, мы можем сделать это.
Но совсем недавно мы пробовали делать и наоборот. Потому что в нашей таблице есть столбец, который соотносится с корпусом, и есть столбец, который соотносится с какой-то морфологической или синтаксической разметкой. И что мы можем сделать? Мы можем разбить все на маленькие чанки. Например, у нас есть глагол запел , и там написано: "петь, мужской род, прошедшее время". И мы можем не учитывать, что это "петь", потому что нам это не очень интересно. Нам интересно, что это "мужской род" и "прошедшее время". Это будут отдельные чанки. Так мы можем разобрать весь корпус на такие маленькие кусочки и посмотреть на частотность. И здесь не важна частотность чего-то конкретного, конкретно какой-то категории. Мы можем посмотреть, по какому параметру какой чанк необычно часто или, наоборот, необычно редко встречается по сравнению с другими корпусами. И это тоже такой способ – bottom-up, то есть идти от данных вверх и искать материал, который может быть исследован. Но все это, конечно, надо проверять, потому что морфологические анализаторы не идеальны, а синтаксические и подавно. Поэтому нужен человек, который посмотрит и поймет, что разумно, а что нет.
А какие-то темы уже находились таким способом?
Мы планируем за них взяться, но все не доходят руки. Например, позиция копулы. Так, в дагестанском русском мы ожидаем, что копула будет скорее в конце: допустим, механиком был . В литературном русском словосочетания был механиком и механиком был различаются по тому, что у них в фокусе, а что в топике. А в Дагестане это отличие стерлось. Это, конечно же, влияние нахско-дагестанских языков, потому что там такое ветвление более естественно. Вот такое мы уже увидели более-менее автоматически (хотя пока что мы не сели и не проанализировали дотошно каждый корпус). Это очень легко увидеть автоматически: был чаще находится в конце, а в других корпусах такое бывает сильно реже.
Будут и другие темы, которые мы будем смотреть, потому что мы много смотрели на синтаксис, но почему-то не смотрели на морфологию. Я боюсь, что здесь мы ничего не сможем поделать с тем, что корпуса очень разные и что какие-то вещи, которые мы обнаружим, могут быть бессмысленны с точки зрения лингвистики. Например, если мы разделим на чанки и выделим, где мужской, где женский род, что это будет значить? Скоре всего, это будет только маркировать самих говорящих. Здесь у нас есть в каждом корпусе свои перекосы: где-то больше женщин, где-то больше мужчин. И получится, что, если мы видим, что в этом корпусе сильно больше женских форм, а в этом сильно больше мужских форм, это значит просто, что в первом корпусе в основном носители женщины, а во втором – мужчины.
То есть это хороший инструмент, но вот мы все мечтаем, что компьютеры нас заменят – а я думаю, что никакая LLM не сможет найти нам тему для исследования. Все время нужно включать голову, проверять на разумность и отсматривать вручную.
Можно ли, по результатам тех исследований, которые пока есть, сказать, что чаще влияет: социолингвистические данные, или какие-то внутриязыковые, или, например, частотность?
На самом деле, везде влияют разные факторы. Можно выделить некоторые социолингвистические параметры: например, возраст или уровень образования: мы скорее встретим нестандартную форму у пожилых и у людей с низким уровнем образования – но даже это скорее тренды, они не всегда значимы. То есть есть банальные предикторы, но в каждом конкретном исследовании не всегда у них большой эффект. Например, в предлогах, по крайней мере в части наших корпусов, фонетика важнее всего, даже важнее частотности. А в исследованиях про числительные и про отрицание получилось, что частотность важнее любых лингвистических факторов.
Важно еще сказать, что когда мы строим наши модели, то постановка задачи такая: А что влияет? Это или это? Это, конечно, чаще всего не очень верно, потому что обычно мы видим взаимодействие фактов, которые разделить очень сложно, иногда невозможно. В нашей статье о числительных так и получилось. Часто бывает, что некоторую вариативность можно объяснить контактом, но не всю. И понятно, что есть какие-то другие факторы, которые тоже влияют. Но что мы наблюдаем всегда, это что Дагестан всегда самый вариативный, а карельский всегда самый стандартный.
Кроме того, сейчас наша сотрудница, Анна Гришанова, работает над тем, чтобы добавить в корпуса некоторую переменную, которая, возможно, будет некоторым геймченджером – а именно, тематику текстов. Потому что, хотя разные корпуса устроены по-разному, возможно, что-то связано с темой как таковой. Понятно, что если человек рассказывает рецепт приготовления курицы в соусе, это будет один тип нарратива, а если он рассказывает историю о своих родителях или о себе, это совершенно другой тип. И я ожидаю, что жанр рассказа будет влиять. Анна пока не знает, что ищет, но те знания, которыми мы уже обладаем, позволяют нам направлять ее в нужную сторону, то есть определять, что стоит считать отдельным жанром, а что нет.
Я только добавлю, что поиск подходящих контекстов – это первая проблема, с которой мы столкнулись. Когда у нас был только дагестанский русский, мы занимались порядком слов в именных группах с генитивом: например, брат мамы . и мы хотели сравнивать со стандартным русским. Мы смотрели устный корпус Национального корпуса русского языка и другие корпуса и искали конструкции с терминами родства – мы заметили, что в Дагестане чаще всего левое ветвление бывает именно с терминами родства – но в Национальном корпусе русского языка таких контекстов очень мало, потому что не очень часто рассказывают о родственниках. То же самое было с башкирским и чувашским корпусами. Поэтому тогда Настя Панова даже собрала свой корпус в Звенигороде: она придумала такие интервью, более-менее похожие на те интервью, которые мы брали в Дагестане, но составленные так, чтобы мы получили нужные контексты и конструкции.
Еще один человек, связанный с корпусами, это Наташа Стойнова, которую мы уже упоминали ранее, когда говорили о влиянии контактов на речь билингвов. Наташа занимается нанайским русским, она много чего уже знала про это все, и даже много чего написала на эту тему. Вот с ней мы занимались порядком слов в генитивных конструкциях. В каком-то смысле Наташа Стойнова стала основателем корпусного движения в России. Дело в том, что Наташа работала в Институте русского языка имени Виноградова и у нас в лаборатории, и поэтому у нее был более-менее один и тот же по духу проект и там, и там. Но после 22-го года она уехала, и в нашей лаборатории это направление стало работать само по себе, а в Институте русского языка тоже само по себе. И получилось так, что мы работали по отдельности, а потом встретились на конференции, которую в этом году устраивал Институт русского языка. И тогда мы позвали ребят к нам, так что месяц назад Егор Кашкин и Ирина Хомченкова сделали доклад у нас в лаборатории. Мы слушали и понимали все проблемы наперёд, узнавали темы, которыми мы занимаемся – хотя темы мы находили независимо друг от друга. Но у нас всё отличается: и пайплайн, и анализ – всё другое. Поэтому интересно, как мы после того, как разошлись и снова сошлись, посмотрели, что получилось. Как два вида разошлись. Хотя не знаю, сможем ли мы скрещиваться или нет, думаю, что сможем, так что, наверное, мы всё ещё один и тот же вид.
Но важно добавить, что Наташа начала здесь, именно в лаборатории заниматься такими сюжетами, это благодаря Нине. Наташа была с нами, объединила нас, но в лаборатории всё-таки инициатором этого направления была Нина. Спасибо ей!
Соотносятся ли как-то Ваши результаты по корпусам с результатами Егора и Иры?
В чем-то совпадают, в чем-то разительно отличаются. Может быть, имеет смысл по-новому взглянуть на их данные. Например, у них получалось, что на выпадение предлогов не влияет фонетика. Надо посмотреть, что они имеют в виду под словом фонетика. И если закопаться, то может стать понятно, почему она не играет роли у них, хотя у нас это важный фактор.
Мне кажется, что общая категория мер, весов и времени, которая у них возникла – это не настоящее семантическое поле, а просто список слов.
Наташа тоже выделяла такие группы, но когда она писала про них, она все-таки объясняла что с этими группами меньше вариативности именно из-за того, чтобы они более частотны. Мы просто научились это мерить и видим, что им приходится добавлять это в модель в таком грубом виде, а у нас есть более элегантная числовая переменная, которая решает какие-то проблемы.
Но у них, наоборот, сделано что-то, чего нет у нас. Например, у них все корпуса размечены по стандартности и нестандартности, так что по этому параметру можно искать. А у нас каждая тема – это отдельная табличка, и пока никто этого не исследовал, с этим ничего нельзя сделать. Так что у них есть какие-то свои сильные стороны, как мне кажется. И я продолжаю считать, хотя Кьяра со мной не согласна, что, возможно, у них чуть больше лингвистического, более глубоко теоретического объяснения данных. Не уверен, что мы полностью согласны с ними, но в любом случае, мне кажется, что интересно смотреть на результаты друг друга. Надеюсь, что мы это будем делать дальше.
Когда вы будете собирать следующие корпуса, вы планируете сначала выяснить, что вы хотите исследовать и собирать как-то так, чтобы там точно были контексты для того, чтобы это можно было проверить, или просто по каким-то соцлинг-опросам?
Это, кстати, хороший вопрос, именно ко мне. Дело в том, что изначально, когда мы собирали эти корпуса, они не собирались для исследования. Они просто оставались от экспедиций, которые занимались исследованием языка. И ещё оставались записи, с которыми никто ничего не делал. И идея Нины Роландовны Добрушиной была в том, чтобы посмотреть всё это и что-то из этого извлечь. Те, у кого что-то было, скребли по сусекам.
И только через какое-то время, когда мы поняли ценность этого, появились специально собранные корпуса. Мы специально ездили в Дагестан, чтобы собирать новые тексты, не только в жанре интервью – как те, которые собирали Михаил Александрович Даниэль и Нина Роландовна Добрушина. А сейчас еще мы попросили данные у людей, которые исследуют ассирийский. У них сбор корпуса тоже не был основной целью – они просто отдали то, что у них осталось. И мы это проанализировали.
И вот из корпусов, специально собранных внутри лаборатории, можно вспомнить корпуса хантыйского и мансийского: Наташа Кошелюк, наш постдок, специально ездила, собирала эти данные и расшифровывала их.
Сейчас это значительно легче, потому что мы используем Whisper для того, чтобы расшифровывать. То есть у Нины Роландовны мы никогда не расшифровывали вручную, потому что это долго и результат был непонятный. Сейчас мы чуть больше можем проанализировать результат, а Whisper значительно ускоряет расшифровку. То есть, процедура там примерно такая: мы используем языковую модель Whisper от OpenAI (можем использовать и другую, но, в принципе, Whisper нам дает какие-то хорошие результаты), у нас получается транскрипция, и она стандартизована, что хорошо. Потому что, если у нас не стандартизовано, например, нет артиклей, как говорит носитель, то тогда их сложно искать, потому что то, чего нет, искать нельзя.
Поэтому вот такую стандартизованную транскрипцию можно перепроверять. Соответственно, мы даем студентам перепроверять ее в качестве практики. Они могут перепроверить час или два записи, потому что нужно просто послушать и посмотреть разметку, и это не очень долго. Если бы они писали это сами, вводили бы руками, это было бы ужасно долго. Наконец, кто-то из лаборатории перепроверяет работу студентов. Поэтому, в каком-то смысле, производство таких корпусов для нас стало не очень сложной задачей. Все равно для этого требуется много усилий совершенно разных людей, но это стало сильно проще.
