GREPと正規表現

投稿者: | 2020-10-25

大量のテキストファイルの中から特定の語を含む箇所を抽出するのに必要なのは何といってもGREP検索機能である。指定したディレクトリの指定したファイル群の内容を検索して当該箇所の一覧を作成する。元々はUNIXのコマンドで、それとの差異を現すためにグローバル検索などと呼ばれることもある。
今では一定以上の機能を備えたテキストエディタに備わっているもので、最近ではワープロソフトの中にも似たような機能を持つ物が出てきているほど。
この機能を知らなければ、ファイルを一つ一つ開いて検索しなければならないが、ファイル数が多くなればなるほど作業は困難になる。ワープロで作成した文書などはGREPができないので、そういう文書群の中から目的の語を探し出すのはもう見当を付けてそれを開いてみるしかないのだが、テキストファイルになっている場合は、それができる。
また、正規表現も従来の検索を格段に強力にするコマンドの一つである。特定の記号を使って検索文字列を定型化することで、その定型に該当する箇所を的確に探し出す。通常の検索では絞り込みが難しいような場合においても正規表現を使えば目的とするものを簡単に探し出せるようになる。
これも一定以上のテキストエディタに必ず備わっている検索方式コマンドで、GREPと組み合わせて特に強力に目的の箇所を素早く抽出したり、あるいは置換機能と組み合わせて特定の文字列部分を別の内容に置換するようなことも可能となるので、テキストを管理する上では必須ともいえる機能なのである。
自分はこれらの検索機能には、やはりPCを使い始める前後、使い始めてすぐ、あるいはWZ EDITORなどを使い始めた頃には知り、そのために既存の資産をワープロ文書からテキストファイルに切り替えたりしたほどである。
いまでもだいたい書いた物はテキストファイルの状態になっていて、GREPや正規表現と組み合わせて内容を検索すると、当時どんなことで言及したのかが概ねすぐにわかるようになっている。
もちろんこれは自宅で書いた物に限らず、むしろ仕事の面で役に立つことなのであるが、仕事で作る文書はだいたい用紙に印刷するのが最終形態であって、テキストで終わるという事がなく、多くがワープロ文書になってしまっているのでそういうデータベース的なことやGREP検索による恩恵はあまり受けることができないのである。