ツイート本文の一部を除外した.gsub()
めっちゃホリディしすぎて、卒業研究が大変なことになりました。
先輩方の御助力を戴いてひとまず出来上がりました。今は修正中です。
オブジェクト指向わかってないマン。
Rubyでツイートを形態素解析器に掛ける際に、RTやらURLやらSNやらがちょっと邪魔だなあと思いました。
.gsub() instance method String#gsub (Ruby 2.0.0) を使ってそいつらを無にする訳ですが、
複数のパターンを指定する時には……?
メソッドチェーンを使ってやればいいかなと考えてこんな感じに。
tweet.gsub(/https?:\/\/.*/,'').gsub(/@.*:/,'').gsub(/RT\s/,'')
例:
test_text = "RT @tkscotte: めっちゃホリディ https://mecchaholiday.com/hoge/" test_text.gsub(/https?:\/\/.*/,'').gsub(/@.*:/,'').gsub(/RT\s/,'') #=>" めっちゃホリディ "
前後に半角スペースが入っちゃってます。
.strip()で前後のスペースを省きます。
test_text.gsub(/https?:\/\/.*/,'').gsub(/@.*:/,'').gsub(/RT\s/,'').strip #=>"めっちゃホリディ"
もしスペース周りで詰まったら
qiita.com
このあたりを参考にして除けばいいかも。
とりあえずこれだけ。