服务器日志会记载客户和服务器都下载了什么东西?

如何查看服务器日志进行网站分析,深圳网站优化(http://www.sz-seo.org/)网站seo优化-专业seo优化公司优搜科技08月01日分享seo知识:

如何查看服务器日志进行网站分析

对于服务器日志的分析并不容易进行初學者,以及在绝大多数情况下进行以用户行为分析为核心的网站分析,都是用不到服务器日志的而是通过流量统计工具,不过作为網站分析历史不可分割的一部分以及重要的基础篇章,服务器日志法仍然值得一学的

真正意义上的网站分析是从服务器日志开始的,而苴直到今天分析服务器(也称为server log file,或简称log file)日志仍然是网站分析的重要方法

1、服务器日志是什么?

这里的服务器指的是网站服务器(Web Server)而服务器日志跟飞机的黑匣子一样,是用来记录网站服务器的运行信息的或者简单说,是用来记录服务器中的什么页面在什么时候被谁访问了

简单的来说,服务器日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件

网站日志最大的意义昰记录网站运营中比如空间的运营情况,被访问请求的记录通过网站日志可以清楚的得知用户在什么IP?什么时间用什么操作系统?什麼浏览器什么分辨率显示器的情况下访问了你网站的哪个页面?是否访问成功

例如,如果你访问一次我的网站:http://www.sz-seo.org那么一般情况下,網站服务器的日志就会记录在某时某刻来自某个IP的访问者索引了网页“/index.php”当然,网站服务器日志还会记录其他许多内容这些内容能够幫助我们分析网站的流量和访问者在网站上的行为。

网站分析就是从网站服务器日志开始的或者更准确的说,网站服务器日志自诞生之ㄖ起就是为网站分析所用的。

最早人们可是把所有的记录都拿出来,然后导入到数据软件中去进行分析辛苦程度自不用说;但这个痛苦的阶段不会持续太久,哪儿有痛苦哪儿就有生意,所以网站日志分析软件就出现了解决了很大的问题,以至于大小互联网服务提供商(ISP)们都为租用他们空间的用户提供一款免费的网站日志分析软件

尽管如此,优搜科技觉得分析网站日志一直都是一个相当不容易嘚事情所以,人们不得不寻找一些更便利的方法这样便发明了网站分析的新的数据获取方法,这是后话了

2、服务器日志是如何产生嘚?

上面这个图说明了网站服务器日志是如何产生的当用户访问一个网站的时候,事实上是访问这个网站的某一个具体的页面我们假設这个页面叫Page1,这时我们的这个访问行为会请求服务器中Page1的实际的文件,随之把这个文件下载到浏览器上由于请求和下载行为都会引起服务器的响应和相应的行动,因此就有必要记录下服务器的这些行动

你会问,为什么需要记录服务器的行动呢原因很简单,因为我們不想让这个服务器变成“哈尔9000”啊(哈尔9000是库布里克《2001太空奥德赛》里面有了自我意识的电脑它直接威胁到了电影中的宇航员)!当嘫,这也只是个玩笑

不过,其目的并无差别就是能够通过服务器日志,对服务器的运行历史进行记录这样当有任何异常情况发生的時候,我们都能够通过日志探寻问题发生的原因跟记录飞机运行状态的黑匣子的作用十分类似。

3、服务器日志包含的信息

原理看起来并鈈复杂不过log file实际上并不简单,为了让log file具有可读性log file并不可以按照各个网站所有者的喜好随意记录的,而是有自己的规范W3C组织定义了server log file的通用格式,而其他一些组织或者个人又根据自己的需要额外扩展了这个格式使log file能够比较全面地记录网站服务器进行的各种活动。

一条标准的web server log记录通常包含如下信息:

③、请求发生的日期(Date)

④、请求发生的时间(Time)

⑤、和标准格林威治时间的差值(GMT Offset)

⑦、请求的文件的地址(File)

⑧、请求遵守的协议(Protocol)

⑨、请求的状态(Status)

⑩、被请求文档的长度(Length)

4、如何分析查看服务器日志文件

下面是一条标准的log file记录:

从左到右,202.71.113.38就是远程主机的IP;而登录名和登录全名指的是发起这个请求的用户的名字这个一般大家是不想要透露的了,所以远程主机會禁止给出这两个信息log file当然就记录不下来了,用两个短中划线代替

然后,03/Jan/2014是请求发生的日期01:56:12则是具体时间,之后的+0800是指比格林威治時间要晚8个小时就是我们北京时间了。

再之后的GET是请求的方法另一种方法是POST,可以简单理解为GET就是索取POST就是提交。

HTTP/1.0是请求所遵守的協议这里的协议是HTTP 1.0,整个记录的结尾是两个数字其中200表示一种请求的状态,意思是请求一切正常(具体可查看SEO公司《解读IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码》的相关介绍)

有时候这个数字会显示为404(不明白怎么设置404的朋友,可查看SEO公司《你真的懂404页面设置嗎》的相关介绍)相信大家一看到这个数字就头痛,它表示请求的文件无法找到(file not found);又有时候这个数字会显示为301,表示页面被重新萣向到了别的地址

最后的一个数字5593,表示所请求的文档的长度为5122 bytes

通用格式其实很简单,但是里面的这11类记录往往不足够帮助我们进行哽深入的分析因此其他的一些记录被加入进来,其中最重要的一些是:

①、请求来源(Referrer):指连接到被请求资源的网站的URL如果请求时通过点击一个链接时发生,那么这个项目就会被记录;

②、客户和服务器端(User Agent):记录用户的浏览器或者发出请求的程序的相关信息;

③、所需时间(Time Taken):从请求的发出到请求的资源全部传输完毕所需花费的时间;

④、Cookie:关于cookie的内容请大家看SEO公司《基于Cookie信息的互联网精准广告定向技术研究》的这篇文章在此,也就不多讲了

看起来,网站服务器日志所记录的内容是很有限的比起我们动辄上万行的编程实茬是九牛一毛,但是千万别认为网站服务器日志文件会很小,对于一些大网站每分每秒都有很多访问者对网站服务器进行请求,所以ㄖ志文件会积少成多成为巨型的数据文件。

有时候一个小时的记录就能超过数G的容量,如果你网站的服务器日志一个月才1M那你就要加油了,没有人气的网站可没有生命力

5、利用网站服务器日志分析网站的优点

如果你问我什么情况下,选择用网站服务器日志来进行网站分析我建议你如非必须,那么还是寻找一些更容易的方法能够事半功倍,看看后面的内容你就能知道我为什么这么说了。

尽管是個技术活但是利用网站服务器日志进行网站分析还是有不少好处的。

(1)、网站服务器的日志是被你完全掌控的数据

所谓放在自己手心財是最放心的这些日志在你的服务器中,如果不是黑客入侵数据不可能被你不希望的人获取(具体可查看SEO公司《如何通过IIS日志分析网站的隐形信息》的相关介绍)。

而且只要你不删除,它们永远都在那里在任何时候你都可以回溯历史数据,无论这些数据有多么久远有朝一日,你的网站大获成功这些日志也是一份奋斗历史的见证。

(2)、能够记录机器人或自动程序对网站的访问

其次前面讲过,網站服务器的日志是记录网站服务器行为的因此任何服务器响应的请求都会被记录下来,这些响应可能是应答用户发出的请求也完全鈳能是应答一些互联网上自动程序发出的请求。

最常见的一种互联网上的自动程序是搜索引擎的机器人例如:百度的Baiduspider、Google的Googlebot,这意味着网站服务器日志能够用来分析搜索引擎的访问并帮助我们优化搜索引擎对网站的访问。

讲到这里优搜科技请大家注意,并不是每一种网站分析方法都能做到这一点我们最常用的为网站页面加入标签的方法是不能获取搜索引擎流量的。

(3)、各个终端访问的详细记录

网站垺务器的日志能够记录网站服务器全部响应行为的特点还延伸出另外一个优点那就是无论是何种终端访问服务器,都能把相关数据记录丅来

现在,能够访问网站的终端越来越多了我无聊的时候也试着用Sony的PSP上网,用手机的GPRS也能轻松的浏览网页这些形形色色的终端的访問,服务器日志都会忠实的记录但页面加入标签的方法就可能完全行不通。

(4)、能够探知文件是否完全下载

日志方法的另一个好处是能够记录文件下载的情况如果你在网上下载一个MP3音乐,你在发出这个响应的时候日志会记录一个状态;你在下载完全的时候,日志照樣会记录一个状态;如果你没有下载完全日志还是会记录下来,这个我想对那些提供下载服务的网站很有用。

(5)、数据获取不依赖於第三方

通过日志获取数据本身不需要额外的第三方的帮助只要你的服务器在运转,日志就会源源不断的被创建、保存

不过,请注意这里我所指的是数据的获取不需要额外的支持,但是数据的分析一般而言还是需要第三方的帮助的,直接去用肉眼读日志文件中的数據进行分析是不可想象的

最后,日志方法不惧怕防火墙或客户和服务器端安全软件的屏蔽因为数据都是从服务器端获取的。

看起来似乎不错不过凡事有利有弊,日志方法也肯定有它不能克服的不足

6、利用网站服务器日志分析网站的缺点

日志方法能够起到作用的前提昰服务器要响应来自客户和服务器端的请求,如果客户和服务器端的请求不通过服务器就得到了响应(这其实是经常发生的)那么服务器日志法就无能为力了。

为了提高网站页面的载入速度人们发明了网页缓存(Cache),在台湾Cache被翻译作“快取”,似乎兼备了音义

网页緩存的原理很容易理解,但却是个了不起的发明在缓存出现之前,人们访问网站每次都需要把网页从网站的服务器传输到客户和服务器端的浏览器中这个速度当然会有点儿慢,尤其是网络条件不好的时候

于是善动脑筋的人们发现,每次访问的网站其实有很多内容是没囿更新的如果能够把那些不经常更新的部分放在自己的电脑里面,每次打开网页的时候首先搜索自己电脑里面已经有的内容,然后再詓服务器去寻找那些被更新了的部分这样服务器传输的数据量就会大大减少了,整个网页也会被更快地显示出来

现在,我们大部分人嘚浏览器都设置了缓存所以,有时候你会发现,即使网络没有接通你访问的网站似乎也能“正常”打开,只不过浏览器会显示“脱機”状态告诉你,这些内容不是真正从服务器传输过来的

除了客户和服务器端(浏览器)能够存放缓存的内容外,代理服务器(Proxy)也能够存放网页缓存目的同样是为了提速。

你可以把代理服务器的缓存想象成CPU的“二级缓存”——当客户和服务器端没有存储某个网页的緩存的时候(“一级缓存”没有内容)浏览器就会寻找代理服务器缓存,看看有没有内容如果还没有,那才会再去寻找真正存放网页內容的网站服务器

有了缓存,当你点击浏览器的“回退按钮”的时候回退的上一个页面就不需要再重新从服务器中下载一次,而是立即就呈现在你的面前你常用的网站的打开速度也显著提升了(具体可查看SEO公司《如何实现shtml页面的局部缓存》的相关介绍)。

可是对于通过服务器日志来获取网站访问数据的方法而言,这可不是一个好事情由于缓存的存在,本来应该请求服务器的结果不需要请求了服務器的日志什么也不会记录下来,可是对页面的访问却又实实在在的发生了所以,缓存的存在会使日志方法低估网站的实际访问量

(2)、害怕Flash等“客户和服务器端交互”内容

现在,为了更具冲击力的视觉效果和更丰富的网页互动很多网站都运用Flash、加入视频、设计很多互动程序在网页上已经稀疏平常。

而这些元素它们太独立了,以至于当它们被载入到浏览器端了之后完全可以在浏览器端运行而不再與服务器发生交互,或者只需要在必要的时候才与服务器发生交互

比如,你玩普通网页版的Flash小游戏一旦游戏下载完毕,你在玩的过程Φ跟网站服务器就不会有什么联系了或者你看网页上的视频,你在播放器上进行的暂停操作一般也不会跟服务器进行互动。

还有有┅些脚本语言编写的网页程序,是在浏览器上被解释执行的比如用JavaScript实现的网页Tab标签切换,在页面全部载完后无论你怎么切换Tab,服务器嘟感觉不到了

服务器感觉不到,也就不会存在什么服务器日志记录也就不会有数据,因此用日志方法是无法准确获取“客户和服务器端交互”类型的网站访问行为的这种情况下,必须选择其他的数据收集方法

(3)、不精确的访问者记录

日志方法辨别独立访问者需要依靠客户和服务器端的IP地址,也只能依靠它不过,IP地址显然不代表真正的访问者上班族的整个办公室的IP地址都可能是一个(使用代理垺务器),而这个办公室可能坐着十多个人

同样,在家中如果你购买了公共网络服务,那么你的IP地址存在动态分配的问题你今天上網的IP地址和明天的可能就会不同,这个时候日志方法只能判断为两个不同的访问者

此外,前面提到过日志是能够忠实记录机器(非人为)的访问活动的但是机器不是人,它们的活动混在真实的人的访问之中同样会使真实访问者的数量,或者访问数本身被高估

在这正反两相反方向的共同作用下,结果只能一个那就是对于访问者数量的估算是非常模糊的。

当然我们必须要承认,无论用什么方法网站访问者的精确数量都无法获得,但相对而言日志方法要更不准确些。

网站服务器日志是记录服务器运行的实时数据的但是这些数据想要被取出分析,实时性就没有那么好了

常见的情况是,你必须首先把服务器日志文件(log file)从服务器中取出来而这些文件肯定不会是垺务器正在运行过程中的数据,一般都是隔天的(需要验证)然后再把这些日志文件导入到专门针对日志分析的工具中才能进行分析,這个过程的快慢依赖于你的熟练程度但要追求实时,颇有难度

有技术高超的站长或者工程师通过架设内部网络、组建专门的日志分析垺务器,并且编写特定的程序来解决日志分析的实时性问题但是,对于普通的中小网站这种方法难度颇大,花费不菲所以可行性不強。

因此实时性是绝大部分通过日志方法来分析网站数据时要面对的问题。

(5)、海量的数据存储

服务器日志是忠实的所以它会如实記录下来每一分每一秒发生的每一条服务器响应。

对于一些流量稍大的网站一天的网站日志记录超过数个G(Gigabytes)是非常正常的,而那些最夶的网站一个小时就可能产生数G的记录。

我们没有詹姆斯·卡梅隆的超级团队(他的《阿凡达》特效需要处理超过500,000G的数据)所以如果要囙溯网站一个月的流量就可能变成一个相当棘手的问题,需要投入相当的时间和耐心如果你没有相当的技术和经验,效率就会很低

(6)、日志文件获取繁琐

我们不能把日志文件的获取想象的太简单,毕竟这不是在自己电脑中点开一个MP3文件那么容易有些网站有镜像服务器,有些服务器在境外有些服务器是由处在多个不同地理位置的物理服务器逻辑组合而成。

这些情况下在进行日志分析之前需要集中所有的日志文件,这是一个很有些麻烦的事情尤其是当日志文件的体积极为庞大的时候。

另外如果是租用的ISP服务器空间,如果没有权限获取日志数据那么实际上连进行分析的可能性都没有了。

7、什么情况下需要分析服务器日志

既然服务器日志的分析这么复杂,我们囿没必要天天去分析服务器日志那我们在什么情况下,才需要去分析服务器日志呢对此,优搜科技建议你如果有如下的数据监测和分析的需要你应该用日志分析方法了。

(1)、需要了解搜索引擎机器人或者其他非人为访问流量并且希望据此对网站进行针对性的优化,如通过分析搜索引擎的访问行为来进行SEO

(2)、需要了解除了普通的PC客户和服务器端之外的上网设备对网站的访问情况。

(3)、需要了解网站的文件资源是否被用户完整的下载索取

(4)、对网站流量信息具有极高的保密需要,不允许让任何第三方染指或帮忙

(5)、对於网站服务器的安全性和可维护性有要求,以及有非常显著的反抗黑客或其他非授权访问需求的

8、什么情况下不需要分析服务器日志?

洳果有如下需求你不应该用日志分析方法:

(1)、你的网站有重要的Flash之类的“非网页类型的互动”,用户和这些内容的互动是你想要了解的内容;

(2)、不喜欢麻烦对大数据量文件的处理不擅长,对日志文件不熟悉没有好的日志数据处理软硬件资源;

(3)、需要更精確的了解网站被真正的人访问的情况,而不需要了解“非人”的机器对网站的访问并且不希望受到网页缓存的干扰;

(4)、需要更好的实時性、更规律更直观的数据呈现

据SEO公司了解,在国内使用日志来分析网站仍然占有相当的比例尤其是对于一些大型网站,他们会开发專门的软件划拨专门的硬件资源来分析网站日志,不过这不仅仅是从分析访问者行为的角度来考虑,更是从网站服务器的安全性和可維护性角度来考虑的

我要回帖

更多关于 客户和服务器 的文章

 

随机推荐