Statystyki unigramowe dla PolEval

Hej, czy ktoś może wygenerował (albo mógłby wygenerować) statystyki unigramowe i chciałby się nimi podzielić?

Możesz je policzyć korzystając ze statystyk bigramowych. Statystyki te zostały policzone skryptem, który dodaje BOS i EOS na początek i koniec każdego zdania, a następnie zwiększa licznik wystąpień każdej sąsiedniej pary. Jeśli zsumujesz liczbę wystąpień bigramów zawierających dane słowo, to dostaniesz podwojone statystyki bigramowe. (Uwzględnij przypadek, gdy dane slowo wystepuje 2 razy w bigramie np. “raz raz”).

1 polubienie

Już nieaktualne, @prych zgodził się wrzucić je na skosa