06 березня 2017

Частотний словник української публіцистики


В цій статті ви можете ознайомитися з історією й деталями створення частотного словника української публіцистики.

Створюючи сайт Лінгвісто (онлайн словники, які можна редагувати), — я побачив статистику вживання німецький слів на сайті dwds.de. Наприклад статистика вживання слова Recherche.
Так зʼявилася ідея дослідити динаміку зміни частоти вживання українських слів протягом тривалого періоду часу (діахронії). При створенні частотного словника української публіцистики я використав досвід та напрацювання отримані при створенні частотного словника українськоїхудожньої прози. Отримані результати розміщено онлайн. В словнику наведена частота вживання більш ніж 170 000 слів.

Для такого дослідження потрібен великий масив текстів які можна однозначно звʼязати з певною датою (датою написання). Для художніх творів встановлення дати написання не завжди можливе і часто досить приблизне. Тому об'єктом дослідження було обрано новини та публіцистику.
Дослідження показали, що легкодоступні тексти в електронному вигляді є починаючи з 1997 року. Пізніше вдалося знайти матеріали починаючи з 1991, що потребували додаткової обробки (розпізнавання тексту). Початкове збирання та обробка текстів тривала близько півроку. Коли корпус текстів набув більш-менш стабільного вигляду, — почалися роботи з підрахунку статистики. При цьому було змінено процедуру визначення словникової (нормальної) форми слова. Тепер для цього використовується великий електронний словник української мови (ВЕСУМ) (https://github.com/brown-uk/dict_uk).

Конфлікти при визначенні словникової форми слова (лематизація)

Як і при створенні частотного словника української художньої прози, нерозвʼязаною залишається проблема однозначного визначення словникової форми слова для певних форм слів.
Наприклад форма слова "стала" має три можливі словникові форми:
  • стала (іменник в значенні константа)
  • сталий (прикметник)
  • стати (дієслово)
Розв'язок цієї задачі потребує розгляду контексту вживання слова, що досить складно. На даному етапі прийдеться миритися з неточностями статистики через неможливість однозначної лематизації.

Оброблені дані

Для отримання графічного представлення, обчислювалася частота вживання слова за кожен рік починаючи з 1991 року. Загалом було проаналізовано 870 мільйонів слів, або 12,5 гігабайтів тексту.
Для створення словника було використано публікації з наступних сайтів та видань
  • http://www.umoloda.kiev.ua/
  • https://day.kyiv.ua/
  • http://tyzhden.ua/
  • http://gazeta.dt.ua/
  • http://www.unian.ua/
  • http://zaxid.net/
  • http://zik.ua/
  • http://www.pravda.com.ua/
  • http://gazeta.ua/
  • http://www.telekritika.ua/
  • http://molbuk.ua/
  • Голос України
Кількість проаналізованих слів за кожен рік виглядає так:
Рік Кількість слів
1991 5 110 805
1992 4 729 946
1993 3 431 045
1994 3 849 379
1995 3 417 543
1996 4 043 219
1997 5 395 192
1998 7 197 782
1999 8 038 333
2000 8 875 595
2001 9 582 517
2002 11 410 371
2003 12 248 543
2004 17 535 415
2005 21 014 925
2006 33 400 295
2007 47 289 146
2008 59 827 287
2009 61 385 679
2010 72 069 207
2011 74 232 823
2012 80 327 866
2013 69 711 366
2014 82 548 090
2015 85 934 326
2016 80 967 088



Дослідження отриманої статистики

Отримана статистика може наочно продемонструвати появу нових слів (інтернет, смартфон, мобілка), поступове зменшення вживання слів (магнітофон, телеграма), кореляцію частоти вживання слів з певними подіями (терорист, сепаратизм, війна, окупація, заручник, інфляція, ваучер, перебудова).








Глибший математичний аналіз ще попереду...

Подальший збір даних

Було б цікаво розширити хронологію, але я не знайшов електронних текстів періодичних видань до 1991 року. Якщо раптом хтось має періодичні видання до 1991 року в електронному вигляді (текст, pdf, djvu, ...) й бажає надати їх для аналізу — пишіть на webmaster на linguisto.eu.

Можливі подальші дослідження

  • Частотний словник української прози 1900 - 2016
  • Створення чогось схожого на Google Ngram Viewer

Немає коментарів: