Skip to main content

Så här använder du verktyget "Ngram Viewer" i Google Böcker

Gifs With Sound #228 (Maj 2025)

Gifs With Sound #228 (Maj 2025)
Anonim

En Ngram, som också vanligen kallas ett N-gram, är en statistisk analys av text- eller talinnehåll för att hitta n (ett nummer) av någon typ av objekt i texten.

Sökningen kan vara alla slags saker, som fonem, prefix, fraser eller bokstäver. Även om N-gramet är något dumt utanför forskargemenskapen, används det på ett flertal områden och det har många konsekvenser för utvecklare som kodar dataprogram som förstår och svarar på det naturliga talade språket.

När det gäller Google Books Ngram Viewer kommer texten som ska analyseras från den stora mängd böcker som Google har skannat in från offentliga bibliotek för att fylla sin sökmotor för Google Böcker. För Google Books Ngram Viewer hänvisar de till texten du ska söka som corpus . Ngram Viewer aggregerar per språk, men du kan separat analysera brittiska och amerikanska engelska eller klumpa dem ihop.

Hur fungerar Ngram

  1. Gå till Google Books Ngram Viewer på books.google.com/ngrams.

  2. Skriv in alla fraser eller fraser du vill analysera. Separera varje fras med ett komma. Google föreslår, "Albert Einstein, Sherlock Holmes, Frankenstein" för att komma igång. Föremålen är skiftlägeskänsliga, till skillnad från Googles webbsökningar.

  3. Skriv ett datumintervall. Standard är 1800 till 2000.

  4. Välj ett corpus. Du kan söka främmande språk eller engelska, och förutom de vanliga valen kan du märka saker som "engelska (2009) eller amerikansk engelska (2009)" längst ner. Det här är äldre corpora som Google sedan uppdaterat, men du kan ha någon anledning att göra jämförelser mot gamla dataset. De flesta användare kan ignorera dem och fokusera på den senaste corpora.

  5. Ange din utjämningsnivå. Utjämning hänvisar till hur smidig grafen är i slutet. Den mest exakta representationen skulle vara en utjämningsnivå på 0, men den inställningen kan vara svår att läsa. Standardinställningen är inställd på 3. I de flesta fall behöver du inte justera det.

  6. tryck på Sök massor av böcker knapp.

Google tillåter dig att borra ganska lite med Ngram Viewer. Om du vill söka efter fisk verbet istället för att fiska substantivet, kan du göra det med hjälp av taggar. I det här fallet skulle du söka efter "fish_VERB"

Google tillhandahåller en komplett lista över kommandon som du kan använda och annan avancerad dokumentation på deras hemsida.

Vad är Ngram Visar?

Google Books Ngram Viewer kommer att skriva ut ett diagram som representerar användningen av en viss fras i böcker genom tiden. Om du har skrivit mer än ett ord eller en fras ser du färgkodade linjer för att kontrastera de olika söktermerna. Det här är ungefär som Google Trends, bara sökningen täcker en längre tid.

Fallstudie

Tänk på fallstudien av ättika pajer. De nämns i Laura Ingalls Wilder's Lilla huset på prärien serier. Att utforska med Googles webbsökning för att lära sig mer om ättika pajer avslöjar att de anses vara en del av det amerikanska sydliga köket och är verkligen gjorda av vinäger. De hörs tillbaka till tider när inte alla hade tillgång till färskvaror hela tiden på året. Men är det hela historien?

Sök Google Ngram Viewer för ättika paj och du kommer att stöta på några anmärkningar av pajen både i början och slutet av 1800-talet, många anmärkningar på 1940-talet och ett ökande antal påpekanden under senare tid. Men med en utjämningsnivå på 3 ser du en platå över anmärkningarna på 1800-talet. Eftersom det inte finns många böcker som publicerades under den tiden, och för att våra data är inställda att släta, snedvrider bilden. Förmodligen fanns en bok som nämnde ättika paj, och det blev bara genomsnittligt för att undvika en spik. Genom att ställa utjämningen till 0 kan vi se att detta är exakt fallet. Spiken centrerar 1869, och det finns en annan spik i 1897 och 1900.

Det är osannolikt att ingen pratade om vinäger pajer resten av tiden: Det var troligt att recepten flyter överallt, men folk gjorde det inte skriva om dem i böcker, och det är en viktig begränsning av dessa Ngram-sökningar.