Межкампусный проект

Исследование особенностей подготовки текстовых данных для применения методов компьютерной лингвистики

Совместный проект с Лабораторией языковой конвергенции, НИУ ВШЭ - Санкт-Петербург (под руководством А. В. Колмогоровой)

Цель научного исследования: оценка возможности автоматически классифицировать, обнаружить и использовать различные речевые регистры на материале больших текстовых данных.

Задачи научного исследования:

Создание, аннотирование и извлечение новых знаний из больших корпусов текостовых данных разного формата.
Создание компьютерных инструментов определения прямой речи в повествовательном тексте.
Выявление лингвистических релевантных количественных особенностей разных речевых жанров и практик.
Популяризация методов компьютерной лингвистики как инструментов для анализа данных.

В рамках базовой лаборатории за последние годы было разработан ряд устных корпусов для региональных вариантов русского языка в таких ареалах, где русский язык вступает во взаимодействие с другими языками народов России (якутский, башкирский, чувашский и т.д.). Корпуса содержат аудиофайлы и их расшифровки, сделанные в стандартизованной орфографии. Поисковая система позволяет прослушивать фрагменты текстов, содержащие искомое слово или сочетание слов. Созданные корпуса стали основой для научного исследования представленного в них материала, в частности, были выявлены особенности речи носителей миноритарных языков в контексте языковой и культурной гегемонии русского.

Коллектив лаборатории дополнен специалистами в области digital humanities, в частности, академическим руководителем магистерской программы «Цифровые методы в гуманитарных науках» и учащимися этой программы. В рамках научного задела этой части исследовательского коллектива можно отметить работу над компьютерным порождением художественной (в частности, стихотворной) речи и выявление особенностей нарративной структуры художественного повествования.

Результаты работы в 2024 году

Тематика дневников

В нашем проекте мы развиваем несколько актуальных для Digital Humanities направлений. В частности, мы пытаемся не с лингвистической, а с культурно и социально оценивающей позиции обозреть большие объемы текстовых данных, документы личного происхождения, распределенные по всему XX веку. Цифровые инструменты позволяют на больших данных оценить, что привлекало внимание пишущих, пока одна эпоха сменяла другую, о чем думали люди на фоне исторических катаклизмов и политических преобразований. Тематика дневниковых записей действительно меняется, например, религиозные размышления и бытовые зарисовки были обычным делом в начале XX века, потом пропадают из текстов к середине века, и снова возвращаются к концу советской эпохи. Оценить эти процессы без привлечения компьютерных средств невозможно — слишком масштабны данные, которые о них говорят.

Культуромика

Еще одна точка приложения наших исследовательских интересов — культуромика, то есть динамика изменения общественных и культурных трендов, увиденная через частотность слов в письменных текстах. Мы пытаемся системно оценить, насколько частотный словарь соотносится с тем, что филологи называют «внетекстовой реальностью» и правда ли значительные техногенные катастрофы поднимают частотность слова «катастрофа» в оцифрованных печатных изданиях. Конкретно это слово — просто частный пример, а вообще-то в проверках участвуют тысячи подобных слов, которые мы соотносим с базами открытых связанных данных и прочими релевантными источниками информации.

Построение ландшафта лингвистики

Продолжая исследования в области построения ландшафта лингвистики, мы сосредоточились на изучении российской лингвистической традиции. В отличие от англоязычного сегмента, с обширными открытыми базами библиометрических данных, здесь мы сталкиваемся с рядом сложностей: неполная оцифровка, разнообразие форматов и отсутствие единых стандартов. Несмотря на это, мы систематически собираем аннотации статей из российских лингвистических журналов, проводя тщательную верификацию и ручную разметку аннотаций. Так мы стремимся создать детальную карту российской лингвистики, выявив ключевые направления, взаимосвязи между ними и национальные особенности в этой области.

Результаты работы в 2023 году

Тематика дневников

Нами проведено тематическое моделирование на записях из корпуса дневников в период с 1891 по 2010 год, разбитых по десятилетиям. Мы проводим тематическое моделирование на материале подкорпусов, разбитых по возрасту автора, поколению автора и гендеру автора и проанализировать получившиеся данные. С помощью такого анализа можно выявить семантический ореол разных поколений и людей разных возрастов, проживавших в XX веке и писавших на русском языке в дополнение к уже выявленному семантическому ореолу различных десятилетий XX века.

Культуромика

Одним из текстовых инструментов цифровых гуманитарных наук является Google Ngrams. Этот инструмент был создан на основе сервиса Google Книги, крупнейшей оцифрованной коллекции книг в мире. Google Книги были запущены в 2002 году, вдохновленные расцветом проектов оцифровки в различных библиотеках и учреждениях мира. По данным Википедии, по состоянию на октябрь 2015 года количество отсканированных названий книг составило более 24 миллионов. Ключевая идея создателей сервиса состоит в следующем: данные о том, как в течение времени меняется частотность определенных слов и словосочетаний, дают нам новые знания о социально-культурных трендах, общественных изменениях и процессах, открывает возможности сравнить и измерить социальные концепты. Эту идею создатели реализуют, во-первых, собрав огромный объем текстов разного времени и на разных языках, а во-вторых, разработав инструмент для поиска и анализа частотности слов в этих текстах, упорядоченных по году публикации, — Google Ngram Viewer. Это онлайн-просмотровщик, изначально основанный на Google Книгах. Он основан на базе данных, первоначально собранной из книг, опубликованных между 1500 и 2000 годами. С помощью статистических методов мы обнаружили аномалии-выбросы частотностей ngrams. Из файлов с аномалиями были извлечены все биграммы, устроенные по принципу “прилагательное” + “землетрясение” (ашхабадское землетрясение, ташкентское землетрясение). Таких оказалось 60 (при учете отсутствия лемматизации, это повторяющиеся термины в разных формах). Для 17 определенных для нграммы аномалий 11 были подтверждены автоматической проверкой, что составляет 64% успешности.

Построение ландшафта лингвистики

В нашем проекте мы развиваем направление построение ландшафта области знания на основе текстов аннотаций научных статей. Публикаций в мире становится все больше, скорость их появления только растет, а уследить за новыми работами почти невозможно. В результате очень сложно представлять, как устроена предметная область в целом. Ответом на эти вызовы стали исследования ландшафта некоторой предметной области, авторы которых пытаются выявить структуру научной области или просто некоторого собрания текстов. В нашем проекте мы фокусируемся на построении ландшафта лингвистики, анализируя англоязычные тексты аннотаций научных статей из большого количества лингвистических журналов. Некоторые результаты проекта можно посмотреть в презентации к докладу Г. А. Мороза "Построение ландшафта лингвистики: первые результаты и поиск стыков с другими науками" на конференции "Дизайн междисциплинарных исследований в контексте сближения моделей естественно-научного и гуманитарно-социального знания" в МФТИ. Другой доклад участников проекта с заголовком «Построение ландшафта лингвистики: первые результаты» был прочитан на конференции «Русская и зарубежная филология в диалоге культур», организованный Южным федеральным университетом.

Мороз Георгий Алексеевич

Международная лаборатория языковой конвергенции: Научный сотрудник

Орехов Борис Валерьевич

Школа лингвистики: Доцент

Стогова Ольга Игоревна

Международная лаборатория языковой конвергенции: Менеджер

Староверова Полина Викторовна

Международная лаборатория языковой конвергенции: Стажер-исследователь

Политова Ирина Сергеевна

Международная лаборатория языковой конвергенции: Стажер-исследователь

Сидоров Кирилл Александрович

Международная лаборатория языковой конвергенции: Стажер-исследователь

Степанова Ангелина Михайловна

Международная лаборатория языковой конвергенции: Стажер-исследователь

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.