c#打开浏览器并全屏（运行打开浏览器命令）

• 2022年1月10日 06:42 • 热门资讯

基于C#.NET+PhantomJS+Sellenium的高级网络爬虫程序。可执行Javascript代码、触发各类事件、操纵页面Dom结构、甚至可以移除不喜欢的CSS样式。

很多网站都用Ajax动态加载、翻页，比如携程网的评论数据。如果是用之前那个简单的爬虫，是很难直接抓取到所有评论数据的，我们需要去分析那漫天的Javascript代码寻找API数据接口，还要时刻提防对方增加数据陷阱或修改API接口地。

c#打开浏览器并全屏（运行打开浏览器命令）

如果通过高级爬虫，就可以完全无视这些问题，无论他们如何加密Javascript代码来隐藏API接口，最终的数据都必要呈现在网站页面上的Dom结构中，不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口，直接从Dom中提取数据，甚至都不需要写那复杂的正则表达式。

主要特性

支持Ajax请求事件的触发及捕获；
支持异步并发抓取；
支持自动事件通知；
支持代理切换;
支持操作Cookies；

运行截图

抓取酒店数据

抓取评论数据

示例代码

 /// <summary>
    /// 抓取酒店评论
    /// </summary>
	static void Main(string[] args)
    {
        var hotelUrl = "http://hotels.ctrip.com/hotel/434938.html";
        var hotelCrawler = new StrongCrawler();
        hotelCrawler.OnStart += (s, e) =>
        {
            Console.WriteLine("爬虫开始抓取地址：" + e.Uri.ToString());
        };
        hotelCrawler.OnError += (s, e) =>
        {
            Console.WriteLine("爬虫抓取出现错误：" + e.Uri.ToString() + "，异常消息：" + e.Exception.ToString());
        };
        hotelCrawler.OnCompleted += (s, e) =>
        {
            HotelCrawler(e);
        };
        var operation = new Operation
        {
            Action = (x) => {
                //通过Selenium驱动点击页面的“酒店评论”
                x.FindElement(By.XPath("//*[@id='commentTab']")).Click();
            },
            Condition = (x) => {
                //判断Ajax评论内容是否已经加载成功
                return x.FindElement(By.XPath("//*[@id='commentList']")).Displayed && x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Displayed && !x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Text.Contains("点评载入中");
            },
            Timeout = 5000
        };

        hotelCrawler.Start(new Uri(hotelUrl), null, operation);//不操作JS先将参数设置为NULL

        Console.ReadKey();
    }

github：https://github.com/microfisher/Strong-Web-Crawler

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

赞 (0)

微信扫一扫

微信扫一扫

自己记账的软件哪个最好用（适合个体户的记账app）

上一篇 2022年1月10日 06:42

fc模拟器安卓版哪个好（fc游戏rpg游戏排行榜）

下一篇 2022年1月10日 06:43

热门资讯

保洁公司管理制度（保洁公司安全生产管理制度）

保洁公司管理制度（保洁公司安全生产管理制度）安全是公司一切工作的保证，安全工作人人有责，工作中存在的危险隐患只要采取必要的安全措施及加强管理力度是完全可以预防的。每位员工必须有强…

2021年8月8日
广告投放

本站电脑端广告位置如图表示，广告投放联系QQ：834090369 网站日访问IP 6000+ 访客人群全部是对快速赚钱，偏门赚钱感兴趣的精准群体。

财路哥
2022年6月20日 • 热门资讯
热门资讯

新农保缴费5000与待遇（新农保交100改3000行吗）

问题所说的农保现在统称为城乡居民养老保险；至于每年交5000的档次划算不还要根据每个人的具体情况自己算。因为划不划算首先要清楚什么条件能享受养老待遇，你不交就不能享受待遇肯定不划…

2021年9月1日
热门资讯

桃树嫁接（桃树嫁接时间分为三个阶段）

桃树嫁接（桃树嫁接时间分为三个阶段）桃树是常见的鲜食性水果，南北都有种植，而且产量高，但是保鲜期短，容易腐烂。桃树一般都是嫁接繁殖，保持本品种特有形状，具体的嫁接时间如下： 1.…

2021年8月2日
车险定损（车险定损不合理及常见的理赔纠纷怎么处理？）

车险定损（车险定损不合理及常见的理赔纠纷怎么处理？）车险定损是车险理赔中非常重要的环节之一。虽然事故的损失金额是由保险公司核定，但是，车主也得了解整个车险定损理赔流程。否则，一旦…

2021年8月5日 • 热门资讯
热门资讯

落枕的原因（4个落枕原因）

落枕的原因（4个落枕原因）早晨起床后落枕感觉到一侧颈部的酸胀和疼痛，有时疼痛向背部或上肢放射，特别是活动时疼痛感加剧，向各个方向活动受到限制。导致落枕的原因一般跟以下几种因素有关…

2021年8月18日

发表回复

登录后才能评论

客服QQ： 8838832

客服微信