昨日の小ネタ

2010年4月10日 雑記

昨日の小ネタここから

聞いて聞いて!シェルスクリプトでTL処理してbotのリストとして取り込むにはどうしたら良いかっていうのを考えてたんだけど、どうやら一部解決したっぽい。

投稿もTLの取得もcurlにやらせるんだけど、この時ごっそりxmlが飛んで来ちゃって、ここからどうやってxml解析を挟まずに投稿内容だけ抽出するかっていうのが問題だったの、

何で問題だったかっていうと新たにソフトをインストールしなきゃいけなくなっちゃうから。でね、それをせずにやろうとするのはあんまり効率的じゃないんじゃないかしらと思ってたんだけど意外にあっさりとできそうなので書いておきますゆ。

おおまかな流れはこう。まずcurlでTLのxmlを取得してどこか適当なところに置いておく。次に取得したxmlからインデントと改行を削除、改めてタグの括弧の前か後ろに改行を入れる。これでイレギュラーな改行の発生する余地を無くしてやる。

あとは、開始タグを対象に一行ずつ処理。対象のタグが含まれる行の次の行をどこかに保存するか、対象のタグが含まれない行と後に続く二行を削除してやれば、必要な行だけ抽出できそう。

実装はまだだけどこれなら割と簡単にできそう。もっとスマートなやり方がありそうな気がするけど、いま思いつくのはこんな感じ。

昨日の小ネタここまで。

実際できるもんなのかって所すら飛ばして垂れ流しちゃったけども、これから確認してみようと思います。

コメントは受け付けていません。