`
jja1982
  • 浏览: 112318 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

网站日志收集方式简介【转】

 
阅读更多
网站用户点击行为的记录,我们通常称为日志,就目前互联网现状,大致有3种不同的方法进行收集。

一、传统的weblog
    也就是web服务器接受到用户访问的http请求时对此行为进行记录,并返还给用户正常的网页内容。

优点:
1、简单、方便,可利用web service软件自带的日志功能;
2、有现成的开源软件可以对日志进行分析,如:AWStat(perl编写,通用性好,界面美观,速度较慢),Webalizer (C编写,分析速度较快,但界面较难看)。

缺点:
1、大型网站那分布在各数据中心的上千台服务器产生的日志,定期对其正常收集汇总就成为很大的问题;
2、使用cache技术,如:squid,会存在多种不同格式的日志,这也是比较烦人的事;
3、网站如果存在大量页面是由多个iframe页面组成,那准确计算网站的用户行为的pv将成为不可能。

二、Beacon log
    目前互联网最流行的方式,通过网页中的植入的一小段代码,用户的浏览器访问目标网页的时候,会顺便再请求一下beacon server。通常一台配置还行服务器就能轻松支撑上数千万PV的log记录。Google Analytics就是这种应用,是目前小网站常用的统计工具。还有被google用31亿美元收购的Double click也采用这种方式来统计网络广告效果。

优点:
1、通常情况,只能记录正常用户的行为。爬虫或者扫描网站等方式产生的PV,都直接不能被统计,而用weblog则很难区分。
2、一个页面被请求只会形成一个PV,不存在iframe页面打开也被统计成pv数
3、收集和汇总日志相对变得非常简单

缺点:
1、ajax的应用,数据将无法记录,目前似乎还没有很好的解决方案
2、对浏览器性能略有影响,并且消耗网络带宽。这个缺点基本可以忽略,不是太大的问题。

优劣其实很容易比较,中小网站一般采用第一种方式简单易用,大型网站适用于第二种方式来满足规模上管理的需要。其实还有一种方法就是web服务端在接到用户请求时,主动向beacon server进行异步请求,这样就避免外部带宽损耗和浏览器性能的开销,但iframe的问题也同时产生了,不过目前似乎没有太多的应用,具体优劣不好评价。
分享到:
评论

相关推荐

    05-ELK日志监控收集及网站流量监控实战.docx

    K:Kibana UI视图,把收集的日志数据,进行图形化界面方式直接展示给用户 1.1多节点 项目特点: 拆分:SOA,微服务架构 部署:大规模集群网络 试想一下: 目前集群网络只有100台服务器。采用人肉运维的方式,处理...

    网站分析数据的三种收集方式详解

    Web日志收集数据的过程示意图如下:Web日志收集数据过程的示意图从上图可以看出网站分析数据的收集从网站访问者输入URL向网站服务器发出http请求就开始了。网站服务器接收到请求后会在自己的Log文件中追加一条记录,...

    monitor —— logger 日志监控

    此系统是基于PHP的日志监控系统,添加包内PHP扩展(支持跨平台),更改配置,运行服务端(跨平台)即可监听所有客户端,便于phper开发维护使用,特别是兼职维护N多php开发网站,搜集日志数据。支持自开发,扩展还可...

    基于Web应用的安全日志审计系统研究与设计.pdf

    日志采集子系统采用多协议分析对日志进行收集, 并进行相应的日志规范化和去重等处理。 分析引擎子系统采用规则库和数理统计的方法, 对日志特征进行提取和设置相应的统计量参数, 进行比较分析。 日志告警子系统则...

    新媒体编辑实习日志.doc

    20xx新媒体编辑实习日志 篇一 新媒体编辑实习日志篇1 201X年X月X日 X天 进入公司,我接到的个项目就是创建公司博客。随着互联网的发展,博客兴起了一 股网络风。由于其沟通方式比电子邮件、讨论群组更简单和容易,...

    Golang实现日志收集、商城秒杀、分布式爬虫、JSON-RPC、视频点播等.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    使用ELK搭建日志集中分析平台实践

    Elasticsearch+Logstash+Kibana(ELK)是一套开源的日志管理方案,分析网站的访问情况时我们一般会借助Google/百度/CNZZ等方式嵌入JS做数据统计,但是当网站访问异常或者被攻击时我们需要在后台分析如Nginx的具体...

    基于ASP的个人网站的设计与制作毕业设计

    创建了一个个人网站,网站主要有:主页、个人简介、图片、日志、留言和管理 几个模块。其中,个人简介是以网页的形式展示在浏览者面前的一个自我介绍, 有与我相关的信息等。图片则是用来展示我们平时收集的一些照片...

    毕设&课设&项目&实训-采用Go语言,配置中心etcd、消息中间件Kafka、Grafana开发的日志收集系统.zip

    采用Go语言,配置中心etcd、消息中间件Kafka、搜索引擎ElasticSearch、时序数据库、InfluxDB以及可视化平台Kibana、Grafana开发的日志收集系统 【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、...

    spark streaming实时网站分析项目实战.rar

    数据采集:视频网站访问日志(编辑python脚本) 1.Python日志产生器开发URL ,ip信息,状态码,时间等 2.python日志产生器测试并将日志写入到文件中 3.通过定时调度工具每一分钟产生一批数据 4.使用flume实时收集...

    网络数据的背后—网络日志的分析指标

    常用的定量分析是问卷调查,这可以收集到用户对产品的主观反馈,它的结果受问卷题目的影响,不能完全客观地反映用户如何使用产品,他们在实际环境中遇到了哪些问题。而针对网站的定量分析,网络服务器的日志文件能...

    2018全国云计算应用创新大赛一等奖作品 从零开始设计并构建“金科云盾”网站防护系统 该系统实现了大规模日志数据收集.zip

    基于PyQT的图片批处理系统-设计源码展示 python pyqt pillow opencv 图像增强 图像滤波 图片水印 文字水印 图片翻转 图片放大缩小 批量处理图片 批量保存修改 图片旋转. 【探索人工智能的宝藏之地】 ...

    ASP搜索引擎蜘蛛爬行日志生成程序.rar

    程序员百味:www.bywei.cn/blog 整理收集 更多的seo工具包请登录我的博客或者联系Q:240349846 推荐seo工具: 1.一个功能超强的查找与替换工具 2.KeywordS关健字排名查询.rar 3.百度指数分析工具.rar 4.老虎...

    elk搭建测试文档

    ELK(Elasticsearch + Logstash + Kibana)是一套开源的日志管理方案,分析网站的访问情况时我们一般会借助Google/百度/CNZZ等方式嵌入JS做数据统计,但是当网站访问异常或者被攻击时我们需要在后台分析如Nginx的具体...

    网站分析-如何做数据分析.pptx

    收集网站数据方法 在跟踪页面上加标签 在页面上嵌入JS,当用户访问时,触发JS向单独的日志收集服务器发送请求,从而记录访问数据。 基于Web服务器日志收集 由服务器端自动生成,成本小,缺点在于处理数据与提取需要...

    YIXUNCMS企业网站建设系统 v2.0.4.1.rar

    YIXUNCMS企业网站建设2015.10.28更新日志 1.新增文章栏目图片设置; 2.修改首页文章调用控制器; 3.首页文章栏目布局微调 4.更改CSS部分样式文件; 5.调整留页板页面布局; YIXUNCMS企业网站建设系统系统介绍...

    从零开始设计并构建网站防护系统

    模拟慢连接、DDOS、撞库、爆破等恶意攻击并统一数据格式,Logstash过滤收集有效日志,日志分类归档检索ES。日志量比较大,HDFS保存三天,快速响应,具有很好的 HA。针对各模块采取相应的分析算法,其中尤其关注敏感...

    KloudfrontBlogStats:用于收集分析数据的 AWS Cloudfront 访问日志解析,在 Kotlin 中实现

    目标能够编写查询来评估: 网站和每页每天、每周、每月的查看次数热门推荐人清理 AWS 日志数据以准备对其进行查询运行无服务器以保持低成本——主要用例是偶尔使用(站点所有者偶尔运行查询) Cloudfront 为您提供...

    网防G01功能简介

    一所云数据中心部署在公安部一所机房,收集汇聚海量的用户攻击防护日志并进行挖掘、分析,云中心搭建单用户管理监测系统、级联用户管理监测系统、实时监测与展示系统和对外数据服务接口以及木马样本库、暗盗链样本库...

Global site tag (gtag.js) - Google Analytics