susukinosu

エンジニアリングって、何だよ

ツイート本文の一部を除外した.gsub()

めっちゃホリディしすぎて、卒業研究が大変なことになりました。

先輩方の御助力を戴いてひとまず出来上がりました。今は修正中です。
オブジェクト指向わかってないマン。

Rubyでツイートを形態素解析器に掛ける際に、RTやらURLやらSNやらがちょっと邪魔だなあと思いました。
.gsub() instance method String#gsub (Ruby 2.0.0) を使ってそいつらを無にする訳ですが、
複数のパターンを指定する時には……?

メソッドチェーンを使ってやればいいかなと考えてこんな感じに。

tweet.gsub(/https?:\/\/.*/,'').gsub(/@.*:/,'').gsub(/RT\s/,'')

例:

test_text = "RT @tkscotte: めっちゃホリディ https://mecchaholiday.com/hoge/"
test_text.gsub(/https?:\/\/.*/,'').gsub(/@.*:/,'').gsub(/RT\s/,'')
#=>" めっちゃホリディ "

前後に半角スペースが入っちゃってます。
.strip()で前後のスペースを省きます。

test_text.gsub(/https?:\/\/.*/,'').gsub(/@.*:/,'').gsub(/RT\s/,'').strip
#=>"めっちゃホリディ"

もしスペース周りで詰まったら
qiita.com
このあたりを参考にして除けばいいかも。

とりあえずこれだけ。