それなりの時系列ログデータが欲しい時

デモとかサンプル用にそれなりのデータ量のログデータが欲しい場合があります。 ググっていると、NASA-HTTP(http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html)というページが見つかって、なかなか良さそうな印象です。 こちら、下の方に訳を載せてみたので、ご参考までです。

でもって↓のように置換して個人的な用途に活用させていただきますmm

LC_ALL=C
※ コレやらないとMacsedしようとしたら『 sed: RE error: illegal byte sequence 』って怒られる…。

grep -l 'Aug/1995' NASA_access_log_Aug95 | xargs sed -e 's!Aug/1995!Dec/2015!g' -i.bk
※ 別に置換しなくても使えるのですが、Kibanaで先月1ヶ月分のログデータを〜とかって時の期間指定的な用途で…

 

 

以下、NASA-HTTP(http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html) のページの翻訳です。

Description フロリダにあるNASAケネディー宇宙センターのWWWサーバーへのHTTPリクエストログ2ヶ月分。2つのログファイル。

Format ログはアスキーなファイルで、1リクエスト1行で、以下のカラムになっています: 1. リクエストを行ったホスト。可能であればホスト名。ホスト名がルックアップできなかった場合はInternet address 2. timestampのフォーマットは "DAY MON DD HH:MM:SS YYYY" です。DAYは day of the week、MONは name of the month、DDは day of  ※ 実際は [28/Jul/1995:13:20:42 -0400] こうなっていて、 DD/MON/YYYY:HH:MM:SS だと思われます…mm 3. リクエストの内容はクオートの中に。こんな感じ→"GET /images/ksclogo-medium.gif HTTP/1.0" 4. HTTPのレスポンスコード 5. レスポンスしたバイト数

Measurement 最初のログは "from 00:00:00 July 1, 1995 through 23:59:59 July 31, 1995, a total of 31 days" 次のログは "from 00:00:00 August 1, 1995 through 23:59:59 Agust 31, 1995, a total of 7 days" で、収集されたもの(ホントに8月1日〜31日までで7日間なのかな、、、?)です。 この2週間(In this two week periodって書いてあるけど、多分2ヶ月間だと思います…)で発生したリクエストは 3,461,612(約350万) で、タイムスタンプは1秒単位です。注意点としては、"01/Aug/1995:14:52:01" から "03/Aug/1995:04:36:13" までは記録されたアクセスがありません。これはハリケーンErinの影響でWebサーバーがシャットダウンされていたからです。

Privacy このログはアクセス元とHTTPリクエストを全て保存したものです。一般的なトラフィックパターンを超えるような分析を行うことはお控えください。

Acknowledgements このログはケネディ宇宙センターのJim Dumoulinによって収集され、サスカチュワン大学のMartin ArlittとCarely Williamsonによって寄せられたものです。

Publications こちらはこれからM. Arlitt と C. Williamsonによって解析された6つのデータセットの中の1つで、彼らが発表する論文である``Web Server Workload Characterization: The Search for Invariants''の中で使われたものです。こちらは"1996 ACM SIGMETRICS Conference on the Measurement and Modeling of Computer Systems, Philadelphia, PA, May 23-26, 1996"で発表されます。 この論文の拡張バージョンはオンラインでも参照可能です。DISCUS home pageやグループの出版物もご覧ください。

Related ``Web Server Workload Characterization: The Search for Invariants''の中に登場する6つのうちの4つのデータセットにはパーミッションが与えられています。その4つのデータセットとは、Calgary-HTTP , ClarkNet-HTTP , NASA-HTTP , and Saskatchewan-HTTP です。

Restrictions ログデータは(may be)自由に再配布できます。

Distribution

Jul 01 to Jul 31 の ASCIIフォーマットのデータgzipで圧縮して 20.7 MB で、圧縮しないと 205.2 MB です。そして Aug 04 to Aug 31 のASCIIフォーマットのデータgzip圧縮で 21.8 MB で、圧縮しないと 167.8 MB です。