Hoe je tekst functionaliteit uit te breiden met Stringr in R

Als je helemaal hebt gewerkt met de tekst manipulatie functies van R, heb je waarschijnlijk afvragen waarom al deze functies hebben zo'n unmemorable namen en schijnbaar uiteenlopende syntaxis. Als dat zo is, je bent niet alleen.

In feite, Hadley Wickham schreef een pakket beschikbaar van CRAN dat vereenvoudigt en standaardiseert het werken met tekst in R. Dit pakket wordt stringr genoemd, en je kunt het installeren via de R-console of door te kiezen voor Extra → Install Packages in RStudio.

Hoewel je moet een pakket slechts eenmaal te installeren, moet je het laden in de werkruimte met behulp van de bibliotheek () functie telkens wanneer u een nieuwe R-sessie te starten en van plan om de functies in dat pakket.

install.packages ("stringr")
bibliotheek (stringr)

Hier zijn enkele van de voordelen van het gebruik stringr in plaats van de standaard R functies:

  • Functienamen en argumenten zijn consistent en meer beschrijvend. Bijvoorbeeld, alle stringr functies hebben namen die beginnen met str_ (zoals str_detect () en str_replace ()).
  • stringr heeft een meer consistente manier van omgaan met gevallen met ontbrekende gegevens of lege waarden.
  • stringr een consistentere manier om die input en output data van hetzelfde type.

De stringr equivalent voor grep () is str_detect (), en het equivalent voor gsub () is str_replace_all ().

Als uitgangspunt te stringr verkennen, kan je een aantal van deze functies nuttig:

  • str_detect (): Detecteert de aanwezigheid of afwezigheid van een patroon in een string
  • str_extract (): Haalt het eerste stuk van een string die overeenkomt met een patroon
  • str_length (): Geeft de lengte van een string (in tekens)
  • str_locate (): Spoort de positie van het eerste optreden van een patroon in een string
  • str_match (): Haalt de eerste gelijkaardige groep van een string
  • str_replace (): Vervangt het eerste optreden van een afgestemd patroon in een string
  • str_split (): Splitst een string in een variabel aantal stuks
  • str_sub (): Haalt substrings van een karakter vector
  • str_trim (): Hiermee snijdt witte ruimte van het begin en einde van de string
  • str_wrap (): Wraps strings in mooi opgemaakte alinea's