Главная страница
qrcode

Лекции по корпусной лингвистике (8). Исследование сочетаемости Изучение семантики форм Проблемы составления частотного словаря


НазваниеИсследование сочетаемости Изучение семантики форм Проблемы составления частотного словаря
Дата06.04.2020
Размер16.7 Kb.
Формат файлаdocx
Имя файлаЛекции по корпусной лингвистике (8).docx
ТипИсследование
#158869
Каталог

8-1

Изучение лексики

1. Изучение лексики на базе корпусов
Составление частотных словарей
  • Исследование сочетаемости
  • Изучение семантики форм
    Проблемы составления частотного словаря

    1. Проблема состава корпуса

    Частотный словарь русского языка под. ред Л.Н. Засориной (1977)
    Советский, товарищ чаще, чем где, ваш
  • Партия, коммунистический, революция чаще, чем назад, около, лучше
    Состав корпуса:
    Около миллиона словоупотреблений
  • Тексты с 1920-х до1960-х годов
  • Большое количество идеологических источников (работы Ленине, Калинина, материалы съездов КПСС, советские газеты)

    Лекция 8-2


    Проблема ограничения списка

    Частотный порог в словаре Ляшевской-Шарова: 0.4 ipm для алфавитного списка (около 50000 лемм, самые редкие слова встречаются в корпусе 33 раза)

    Концепт Basic English (с 1930-х) – ограниченный набор слов, с помощью которого можно выразить относительно сложные мысли.


    West, 1953 год

    Корпус: 2,5 млн.

    Покрытие: около 80% любого письменного текста

    2000 слов «первой необходимости» («general service») для изучающих английский.

    Частотность – не единственный критерий при составлении GSL, другие критерии:
    Универсальность (слова используются в разных странах)
  • Широта (возможность обсуждения максимально большого числа тем)
  • Полезность (используются для определения других слов)
    ЛЕКЦИЯ 8-3
    GSL с позицией современной лингвистикиКорпус собран в докомпьютерную эпоху и по современным стандартам очень мал
  • Вторая тысяча слов используется не так часто, как кажется составителям
  • Корпус текстов датируется 1930-мии годами и ранее, поэтому включает слова, которые не используются сегодня, и не включает слова обычные для современного читателя (pilot, television, battery)
  • Не содержит информации об использовании слов в устной речи
  • Критерии «широты» и «полезности» крайне субъективны (mannerism,vessel,stock)
  • Отсутствует информация о сочетаемости.
    New general service list (NGSL)

    2013г

    Корпус: 273млн. из Cambridge English Corpus (CEC)

    Покрытие: около 90% любого письменного текста

    Сравнение с GSL:
    Vocabulary List
    Number 0f «Word Families»
    Number of «Lemmas»
    Coverage in CEC Corpus
    GSL
    1964
    3623
    84,24%
    NGSL
    2368
    2018
    92,34%
    Что учить, когда выучил NGSL?

    Изучение следующих по частотности слов не является эффективным: количество слов, необходимое для покрытия следующего 1% письменного текста резко возрастает

    Рекомендуется изучать специальную лексику, представленную в NewAcademicworllist

    Корпуса: MICASE (Michigan Corpus of academic Spoken)

    BASE (British academic Spoken English)

    Жанры: журнальные статьи, студенческие эссе, устная академическая речь

    Business Service List

    Корпуса:BNC,интернет, журналы, учебники

    Покрытие: вместе с NGSL до 97% бизнес - текстов общей тематики.

    перейти в каталог файлов


  • связь с админом