归档日志

数据来源

  1. Lightening,包括如下数据:
  1. Wayback Machine

数据处理

shlug.zip

shlug.zip中包括geekbonemeeting目录,分别是网站数据和分享活动相关的资料。

geekbone目录

  1. 去除无关数据内容
  1. 转换GBK编码的文本文件
find -name '*.txt' -print0|xargs -0 recode gbk..utf8
  1. 转换GBK编码的HTML文件
find -name '*htm*' -type f -exec fgrep -q  -i charset=gb '{}'  \;  -print0 | xargs -0 -L1  -I{} recode gbk..utf8 '{}'

find -name '*htm*' -type f -exec fgrep -q  -i charset=gb '{}'  \;  -print0 | xargs -0 -L1 sed -i -e 's/charset=..2312/charset=utf-8/g'
  1. 转换其他文件的编码
find -name '*.js' -type f -print0 | xargs -0 -L1 recode gbk..utf8
  1. 站内绝对路径链接改为相对路径,以及其他修正

www.shlug.org快照

快照是通过以下命令下载的:

wayback_machine_downloader http://www.shlug.org -t 20160306

下载好的数据需要进行如下几项处理:

  1. 对非UTF-8编码的文本文件和HTML文件转编码(见script/shlug_fix_enc.sh) ;
  2. 改写所有HTML文件中的站内链接,改为相对路径(见script/shlug_fix_url.rb),具体分为下面几个步骤: