shlug.zip
中包括geekbone
和meeting
目录,分别是网站数据和分享活动相关的资料。
geekbone
目录下除了geekbone
子目录的其他文件和目录;geekbone/geekbone/cert
目录;geekbone/geekbone/webalizer
;geekbone/geekbone/discuss
;find -name '*.txt' -print0|xargs -0 recode gbk..utf8
find -name '*htm*' -type f -exec fgrep -q -i charset=gb '{}' \; -print0 | xargs -0 -L1 -I{} recode gbk..utf8 '{}'
find -name '*htm*' -type f -exec fgrep -q -i charset=gb '{}' \; -print0 | xargs -0 -L1 sed -i -e 's/charset=..2312/charset=utf-8/g'
find -name '*.js' -type f -print0 | xargs -0 -L1 recode gbk..utf8
快照是通过以下命令下载的:
wayback_machine_downloader http://www.shlug.org -t 20160306
下载好的数据需要进行如下几项处理:
script/shlug_fix_enc.sh
) ;script/shlug_fix_url.rb
),具体分为下面几个步骤: