Statystyki unigramowe dla PolEval

przetwarzanie-języka-naturalnego

(Michał Martusewicz) #1

Hej, czy ktoś może wygenerował (albo mógłby wygenerować) statystyki unigramowe i chciałby się nimi podzielić?


(Jarek Dzikowski ) #2

Możesz je policzyć korzystając ze statystyk bigramowych. Statystyki te zostały policzone skryptem, który dodaje BOS i EOS na początek i koniec każdego zdania, a następnie zwiększa licznik wystąpień każdej sąsiedniej pary. Jeśli zsumujesz liczbę wystąpień bigramów zawierających dane słowo, to dostaniesz podwojone statystyki bigramowe. (Uwzględnij przypadek, gdy dane slowo wystepuje 2 razy w bigramie np. “raz raz”).


(Michał Martusewicz) #3

Już nieaktualne, @prych zgodził się wrzucić je na skosa