Навеяно предыдущим обсуждением монографии Рейна Таагепера "The Finno-Ugric republics and the Russian state" (1996). Книга русофобская, но в ней есть интересная таблица по сравнению словника Сводеша нескольких фу. народов. Несмотря на его ссылку на собственную статью в Linguistica Uralica (1994), на самом деле все его данные взяты из статьи Рауна 1964 г, что как бы неудивительно, так как seltsimees Taagepera не лингвист, а политический обозреватель.
В любом случае 100 словный словник это не есть что-то очень удовлетворительное и достаточное, так как для центральных фу народов (т.е. без угорской ветви) схождения в произвольных парах в пределах 30-40%, так что различия между ними на грани статистической погрешности и не помогают чётко разделить финно-пермский таксон на дочерние (под)группы. Я считаю, что ответ о, например, взаимотношениях эрзя-мари-пермяне может быть найден, если будет использован принципиально более широкий словник.
Что я сделал? Так как с корпусами малых народов беда (чаще всего их просто нет), за отправную точку я использовал список слов BNC1 (British National Corpus - общий, со служебными словами). Почему его? За неимением лучшего (корпус около 10 млн слов, литература взвешена по жанрам), и что очень важно - слова сгруппированы по корням, т.е. в отличие от большинства частотных словников be, was, were, is - одно слово. Аналогичным образом одно "слово" - able, ability, inability. Учитывая богатую морфологию и гибкое словообразование в фу. языках - я считаю корневой принцип более чем оправданным. Если сферический в вакууме носитель фу. языка захочет изучить другой фу. язык он наверняка начнёт с знакомства со словообразовательным моделями целевого языка, иначе изучение лексики станет очень нерациональным. Вместо того чтобы выучить 30 корней и 10 аффиксов (= аналогов родных аффиксов) придётся заучивать 300 слов и т.д.
Кроме того, я принял решения "причесать" словник:
Во-первых, я удалил все новомодные греко-латинские корни, которые проcтым людям ни к чему, и которых нет в традиционных текстах. Чаще всего эти корни заимствованы и в русском языке и тождественны английским, например radio, video, debate, discuss, argue и т.д. В случае с фу. языками России в тех редких дискурсах, когда нужна такая лексика, эти слова почти на 100% взяты из русского, поэтому сравнивать словники с такими "вкраплениями" заведомо бессмысленно, они будут создавать ненужный статистический шум.
Во-вторых, я убрал ту абстрактную лексику, которая в английском - всё те же греко-латинские корни, а в русском она хотя и приняла славянскую одёжку, но по факту - это кальки. Например, influence - влиять, suppose - предполагать и т.д. Насчёт этих слов можно спорить, но а) их нет в традиционных текстах (медведи не "влияют" на охотников, а лисы ничего не "предполагают") б) если эти слова и есть в реальных живых фу. языках (а не русские корни с фу. окончаниями), то это скорее всего новоделы 90ых годов. Кроме того, даже если эти слова как-то калькированы, то с использованием уже существующих корней и их сравнение ничего нового не даст.
В-третьих, я расширил словник лексикой, которая отражает традиционный уклад, скажем так, 19 века, так как вполне очевидно, что BNC отражает урбанизированную культуру конца 20 века, где слабо представлены животные (есть только питомцы - собаки и кошки, но нет коров, зайцев и т.д.), деревья, явления природы, и традиционные профессии (кузнец, швея), зато есть "автобус, кофе, стресс, секс" и т.д. Кроме того, я убрал узкоспецифичные реалии вроде Иисуса, Рождества, Англия, месяца и дни недели (как и сама "неделя"). Есть времена года и части суток, как и само слово "год". Числа оставил в объёме: 1-10, 20, 100, 1000. Из страноведческого оставил Россию, Эстонию и Финляндию и национальности сравниваемых языков как культурно-значимые слова.
И в-четвёртых, я вручную верифицировал пары антонимов. Довольно удивительно, но в словнике есть слово stupid, но нет clever, есть full но нет empty и т.д.
В результате этих манипуляций словник сократился до
примерно 500 корней.
И последнее - при подсчёте когнатов я буду учитывать очень частую претензию к списку Сводеша от носителей тюркских языков (а ситуация по крайней мере в прибалтийско-финских похожая): неправильно считать "непониманием", если не совпадают лишь стилистически нейтральные аналоги, но совпадают их более редко используемые синонимы. Пуристы списка Сводеша постоянно насчитывают огромные дистанции между носителями тюркских языков, которые не подтверждаются практикой и не влияют на взаимопонимание. Для примера, если в русском языке стилистически-нейтральное слово "большой", это совсем не значит, что русский человек на генетическом уровне не в состоянии сразу понять польское прилагательное wielki, которое соответствует русскому несколько возвышенному "великий". Сводешисты в таких случаях считают, что совпадения нет, так как большой <> wielki.
Во-вторых, я принимаю совпадения даже если они неточные, но мало влияют на понимание. Например, эст. valge = белый, а эрз. вальде = светлый. Формально слова не совпадают, но реально на взаимопонимание это мало влияет. Аналогично rootsi ~ рочь тоже будет считаться совпадением, хотя формально национальности не совпадают, сути того, что это слово обозначает "представитель чужого народа на севере" это не меняет.
Что вы думаете, перспективна ли работа с таким словником и интересны ли были бы результаты такого сравнения?