Kodowanie metodą gorącej jedynki jest najpopularniejszym podstawowym sposobem zamieniania tokena w wektor. Z metody tej korzystaliśmy w początkowych przykładach przetwarzania zbiorów IMDB i Agencji Reutera przedstawionych w rozdziale 3. (używaliśmy jej do kodowania słów). Polega ona na przypisaniu do każdego słowa unikatowego indeksu będącego wartością całkowitoliczbową i umieszczoną w wektorze binarnym o długości n (rozmiar słownika). Wektor przyjmuje same wartości zerowe poza i-tym elementem, który przyjmuje wartość 1.
Oczywiście metoda ta może być również użyta na poziomie znaków. W celu wyjaśnienia praktycznej implementacji metody kodowania z gorącą jedynką chciałbym zaprezentować dwa przykłady: pierwszy z nich przedstawia kodowanie słów, a drugi kodowanie znaków:
Prosty przykład kodowania słów metodą gorącej jedynki:
r
r # This is our initial data; one entry per
# (in this toy example, a is just a sentence, but # it could be an entire document). samples <- c(cat sat on the mat., dog ate my homework.)
First, build an index of all tokens in the data.
token_index <- list() for (sample in samples) # Tokenizes the samples via the strsplit function. In real life, you’d also # strip punctuation and special characters from the samples. for (word in strsplit(sample, )[[1]]) if (!word %in% names(token_index)) # Assigns a unique index to each unique word. Note that you don’t # attribute index 1 to anything. token_index[[word]] <- length(token_index) + 2 # Vectorizes the samples. You’ll only consider the first max_length # words in each sample. max_length <- 10 # This is where you store the results. results <- array(0, dim = c(length(samples), max_length, max(as.integer(token_index)))) for (i in 1:length(samples)) { sample <- samples[[i]] words <- head(strsplit(sample, )[[1]], n = max_length) for (j in 1:length(words)) { index <- token_index[[words[[j]]]] results[[i, j, index]] <- 1 } }
Prosty przykład kodowania znaków metodą gorącej jedynki:
r
r samples <- c(cat sat on the mat., dog ate my homework.) ascii_tokens <- c(\, sapply(as.raw(c(32:126)), rawToChar)) token_index <- c(1:(length(ascii_tokens))) names(token_index) <- ascii_tokens max_length <- 50 results <- array(0, dim = c(length(samples), max_length, length(token_index))) for (i in 1:length(samples)) { sample <- samples[[i]] characters <- strsplit(sample, \)[[1]] for (j in 1:length(characters)) { character <- characters[[j]] results[i, j, token_index[[character]]] <- 1 } }
Pakiet Keras jest wyposażony w narzędzia przeznaczone do kodowania znaków i słów metodą gorącej jedynki (narzędzia te potrafią przetwarzać surowy tekst). W praktyce warto z nich korzystać, ponieważ wykonują wiele ważnych operacji, takich jak usuwanie znaków specjalnych i branie pod uwagę tylko n słów najczęściej występujących w zbiorze (zwykle stosuje się takie ograniczenie w celu uniknięcia pracy z bardzo dużymi przestrzeniami wektora wejściowego).
Przykład kodowania słów metodą gorącej jedynki przy użyciu gotowych narzędzi pakietu Keras:
r
r library(keras) samples <- c(cat sat on the mat., dog ate my homework.) # Creates a tokenizer, configured to only take into account the 1,000 # most common words, then builds the word index. tokenizer <- text_tokenizer(num_words = 1000) %>% fit_text_tokenizer(samples) # Turns strings into lists of integer indices sequences <- texts_to_sequences(tokenizer, samples) # You could also directly get the one-hot binary representations. Vectorization # modes other than one-hot encoding are supported by this tokenizer. one_hot_results <- texts_to_matrix(tokenizer, samples, mode = ) # How you can recover the word index that was computed word_index <- tokenizer$word_index cat(, length(word_index), tokens.)
Found 9 unique tokens.
Odmianą kodowania metodą gorącej jedynki, która może zostać użyta, gdy liczba unikatowych tokenów w słowniku jest zbyt duża, aby obsłużyć ją w sposób jawny, jest sztuczka haszowania z gorącą jedynką (ang. one-hot hashing trick). Zamiast jawnie przypisywać indeks do każdego ze słów i utrzymywać odwołania do tych indeksów w słowniku, można haszować słowa do formy wektorów o określonym rozmiarze. Zwykle robi się to za pomocą bardzo lekkiej funkcji haszującej. Główną zaletą tej metody jest brak konieczności utrzymywania jawnego indeksu słów, co pozwala oszczędzić przestrzeń pamięci i zakodować dane w locie (możliwe jest natychmiastowe wygenerowanie wektorów tokena, bez potrzeby przyglądania się całości dostępnych danych). Wadą tego rozwiązania jest możliwość wystąpienia konfliktów haszy (ang. hash collisions), polegających na przepisaniu tego samego hasza dwóm różnym słowom (w takim przypadku żaden model uczenia maszynowego analizujący uzyskane hasze nie będzie mógł odróżnić od siebie tych słów). Prawdopodobieństwo wystąpienia konfliktów haszy maleje, gdy przestrzeń haszowania jest o wiele większa od całkowitej liczby unikatowych haszowanych tokenów.
Prosty przykład sztuczki haszowania słów metodą gorącej jedynki:
r
r library(hashFunction) samples <- c(cat sat on the mat., dog ate my homework.) # We will store our words as vectors of size 1000. # Note that if you have close to 1000 words (or more) # you will start seeing many hash collisions, which # will decrease the accuracy of this encoding method. dimensionality <- 1000 max_length <- 10 results <- array(0, dim = c(length(samples), max_length, dimensionality)) for (i in 1:length(samples)) { sample <- samples[[i]] words <- head(strsplit(sample, )[[1]], n = max_length) for (j in 1:length(words)) { # Hash the word into a integer index # that is between 0 and 1,000 index <- abs(spooky.32(words[[i]])) %% dimensionality results[[i, j, index]] <- 1 } }
