Hej, czy ktoś może wygenerował (albo mógłby wygenerować) statystyki unigramowe i chciałby się nimi podzielić?
Możesz je policzyć korzystając ze statystyk bigramowych. Statystyki te zostały policzone skryptem, który dodaje BOS i EOS na początek i koniec każdego zdania, a następnie zwiększa licznik wystąpień każdej sąsiedniej pary. Jeśli zsumujesz liczbę wystąpień bigramów zawierających dane słowo, to dostaniesz podwojone statystyki bigramowe. (Uwzględnij przypadek, gdy dane slowo wystepuje 2 razy w bigramie np. “raz raz”).
1 polubienie