Search results for 'crawler' - The Ruby Toolbox

Categories

Category results are hidden when using a custom project result order

Projects

Bugfix forks are hidden

http_crawler

0.0

A long-lived project that still receives updates

http_crawler superjagger/http_crawler Homepage Documentation Source Code Bug Tracker Wiki

初级开发工程师，基于 http 写的爬虫扩展包。请不要随意下载里面有很多坑。

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

110,594

1

0

1

Releases

Current version

0.3.2.12

70

2018-12-28

2024-02-26

Activity

Average date of last 50 commits

2024-02-26

Reverse Dependencies

0

Show more project details Compare

govuk_seed_crawler

0.0

Repository is archived

No release in over a year

govuk_seed_crawler alphagov/govuk_seed_crawler Homepage Documentation Source Code Bug Tracker

Retrieves a list of URLs to seed the crawler by publishing them to a RabbitMQ exchange.

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

11,040

0

2

54

Releases

Current version

3.2.1

7

2015-08-28

2023-03-22

Activity

Issue Closure Rate

100%

Pull Request Acceptance Rate

91%

Average date of last 50 commits

2023-03-13

Reverse Dependencies

0

Show more project details Compare

coolCrawler

0.0

No release in over a year

coolCrawler willwright1213/coolcrawler Homepage Documentation Source Code Bug Tracker Wiki

Simple Web Crawler

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

3,759

2

0

1

Releases

Current version

0.4.4

8

2022-09-29

2022-11-01

Activity

Average date of last 50 commits

2022-10-01

Reverse Dependencies

0

Show more project details Compare

rails-hush

0.0

The project is in a healthy, maintained state

rails-hush zarqman/rails-hush Homepage Documentation Source Code Bug Tracker Wiki

Hushes worthless Rails exceptions & logs, such as those caused by bots and crawlers.

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

6,327

0

0

2

Releases

Current version

1.1.2

6

2019-11-03

2023-10-05

Activity

Pull Request Acceptance Rate

0%

Average date of last 50 commits

2022-08-27

Reverse Dependencies

0

Show more project details Compare

zy_crawler

0.0

No release in over a year

zy_crawler uuensky/zycrawler Homepage Documentation Source Code Bug Tracker Wiki

A simple crawler demo crawler

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

1,182

0

0

1

Releases

Current version

0.0.1

1

2022-03-08

2022-03-08

Activity

Average date of last 50 commits

2022-03-08

Reverse Dependencies

0

Show more project details Compare

vscinemas

0.0

No release in over a year

vscinemas elct9620/vscinemas-rb Homepage Documentation Source Code Bug Tracker Wiki

The Taiwan VSCinema crawler to get latest film list.

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

3,409

0

0

3

Releases

Current version

0.2.1

3

2021-12-20

2021-12-21

Activity

Average date of last 50 commits

2021-12-25

Reverse Dependencies

0

Show more project details Compare

crawler_detect

User Agent Detection

0.07

User Agent Detection

Low commit activity in last 3 years

A long-lived project that still receives updates

crawler_detect loadkpi/crawler_detect Homepage Documentation Source Code Bug Tracker

CrawlerDetect is a library to detect bots/crawlers via the user agent

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

1,027,490

111

12

2

Releases

Current version

1.2.4

26

2018-08-05

2024-03-20

Activity

Issue Closure Rate

87%

Pull Request Acceptance Rate

73%

Average date of last 50 commits

2021-01-07

Reverse Dependencies

1

Show more project details Compare

validate-website

0.03

Low commit activity in last 3 years

No release in over a year

validate-website spk/validate-website Homepage Documentation Source Code Bug Tracker Wiki

validate-website is a web crawler for checking the markup validity with XML Schema / DTD and not found urls.

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

125,542

38

9

4

Releases

Current version

1.12.0

50

2009-10-24

2022-11-15

Activity

Issue Closure Rate

100%

Pull Request Acceptance Rate

83%

Average date of last 50 commits

2021-01-02

Reverse Dependencies

0

Show more project details Compare

spiderman

0.01

No release in over 3 years

Low commit activity in last 3 years

spiderman bkeepers/spiderman Homepage Documentation Source Code Bug Tracker Wiki

your friendly neighborhood web crawler

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

4,535

18

1

5

Releases

Current version

2.0.0

1

2020-03-22

2020-03-22

Activity

Pull Request Acceptance Rate

100%

Average date of last 50 commits

2020-08-22

Reverse Dependencies

0

Show more project details Compare

rakuten-travel-crawler

0.0

No commit activity in last 3 years

No release in over 3 years

rakuten-travel-crawler elsoul/rakuten-travel-crawler Homepage Documentation Source Code Bug Tracker Wiki

Empower World Travel Information Technology

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

2,838

0

0

2

Releases

Current version

0.1.1

2

2020-08-03

2020-08-03

Activity

Average date of last 50 commits

2020-08-03

Reverse Dependencies

0

Show more project details Compare

expedia-crawler

0.0

No commit activity in last 3 years

No release in over 3 years

expedia-crawler elsoul/expedia-crawler Homepage Documentation Source Code Bug Tracker Wiki

Empower World Travel Information Technology

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

3,042

0

0

2

Releases

Current version

0.1.1

2

2020-08-03

2020-08-03

Activity

Average date of last 50 commits

2020-08-03

Reverse Dependencies

0

Show more project details Compare

agoda-crawler

0.0

No commit activity in last 3 years

No release in over 3 years

agoda-crawler elsoul/agoda-crawler Homepage Documentation Source Code Bug Tracker Wiki

Empower World Travel Information Technology

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

1,925

0

0

2

Releases

Current version

0.1.0

1

2020-08-03

2020-08-03

Activity

Average date of last 50 commits

2020-08-03

Reverse Dependencies

0

Show more project details Compare

booking-com-crawler

0.0

No commit activity in last 3 years

No release in over 3 years

booking-com-crawler elsoul/booking-com-crawler Homepage Documentation Source Code Bug Tracker Wiki

Empower World Travel Information Technology

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

1,814

0

1

2

Releases

Current version

0.1.0

1

2020-08-03

2020-08-03

Activity

Average date of last 50 commits

2020-08-03

Reverse Dependencies

0

Show more project details Compare

jalan-crawler

0.0

No commit activity in last 3 years

No release in over 3 years

jalan-crawler elsoul/jalan-crawler Homepage Documentation Source Code Bug Tracker Wiki

Empower World Travel Information Technology

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

1,672

0

0

2

Releases

Current version

0.1.0

1

2020-08-03

2020-08-03

Activity

Average date of last 50 commits

2020-08-03

Reverse Dependencies

0

Show more project details Compare

by_crawler

0.0

No commit activity in last 3 years

No release in over 3 years

by_crawler yaojuan/by_crawler Homepage Documentation Source Code Bug Tracker Wiki

a demo for study ruby

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

1,929

0

0

1

Releases

Current version

0.1.0

1

2020-06-24

2020-06-24

Activity

Average date of last 50 commits

2020-06-24

Reverse Dependencies

0

Show more project details Compare

medusa-crawler

0.01

No commit activity in last 3 years

No release in over 3 years

medusa-crawler brutuscat/medusa-crawler Homepage Documentation Source Code Bug Tracker Wiki

== Medusa: a ruby crawler framework {rdoc-image:https://badge.fury.io/rb/medusa-crawler.svg}[https://rubygems.org/gems/medusa-crawler] rdoc-image:https://github.com/brutuscat/medusa-crawler/workflows/Ruby/badge.svg?event=push Medusa is a framework for the ruby language to crawl and collect useful information about the pages it visits. It is versatile, allowing you to write your own specialized tasks quickly and easily. === Features * Choose the links to follow on each page with +focus_crawl+ * Multi-threaded design for high performance * Tracks +301+ HTTP redirects * Allows exclusion of URLs based on regular expressions * Records response time for each page * Obey _robots.txt_ directives (optional, but recommended) * In-memory or persistent storage of pages during crawl, provided by Moneta[https://github.com/moneta-rb/moneta] * Inherits OpenURI behavior (redirects, automatic charset and encoding detection, proxy configuration options). <b>Do you have an idea or a suggestion? {Open an issue and talk about it}[https://github.com/brutuscat/medusa-crawler/issues/new]</b> === Examples Medusa is versatile and to be used programatically, you can start with one or multiple URIs: require 'medusa' Medusa.crawl('https://www.example.com', depth_limit: 2) Or you can pass a block and it will yield the crawler back, to manage configuration or drive its crawling focus: require 'medusa' Medusa.crawl('https://www.example.com', depth_limit: 2) do |crawler| crawler.discard_page_bodies = some_flag # Persist all the pages state across crawl-runs. crawler.clear_on_startup = false crawler.storage = Medusa::Storage.Moneta(:Redis, 'redis://redis.host.name:6379/0') crawler.skip_links_like(/private/) crawler.on_pages_like(/public/) do |page| logger.debug "[public page] #{page.url} took #{page.response_time} found #{page.links.count}" end # Use an arbitrary logic, page by page, to continue customize the crawling. crawler.focus_crawl(/public/) do |page| page.links.first end end

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

4,216

5

3

3

Releases

Current version

1.0.0

3

2020-08-06

2020-08-17

Activity

Issue Closure Rate

80%

Average date of last 50 commits

2020-05-23

Reverse Dependencies

0

Show more project details Compare

kudzu

0.0

Low commit activity in last 3 years

A long-lived project that still receives updates

kudzu kanety/kudzu Homepage Documentation Source Code Bug Tracker Wiki

A simple web crawler for ruby

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

25,918

1

1

3

Releases

Current version

1.3.1

16

2017-12-20

2023-06-23

Activity

Issue Closure Rate

100%

Pull Request Acceptance Rate

89%

Average date of last 50 commits

2020-01-19

Reverse Dependencies

1

Show more project details Compare

watir-for-crawler

0.0

No commit activity in last 3 years

No release in over 3 years

watir-for-crawler bdkhanh/watir-for-crawler Homepage Documentation Source Code Bug Tracker Wiki

Simple Gem Using Watir For Phantom Crawler

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

2,177

1

0

1

Releases

Current version

0.1.0

1

2019-04-28

2019-04-28

Activity

Average date of last 50 commits

2019-11-11

Reverse Dependencies

0

Show more project details Compare

wombat

Web Content Scrapers

0.55

Web Content Scrapers

Low commit activity in last 3 years

There's a lot of open issues

No release in over a year

wombat felipecsl/wombat Homepage Documentation Source Code Bug Tracker Wiki

Generic Web crawler with a DSL that parses structured data from web pages

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

205,356

1,304

129

51

Releases

Current version

3.0.0

34

2011-12-27

2022-08-23

Activity

Issue Closure Rate

59%

Pull Request Acceptance Rate

80%

Average date of last 50 commits

2019-09-27

Reverse Dependencies

4

Show more project details Compare

wayback_archiver

0.03

No release in over 3 years

Low commit activity in last 3 years

wayback_archiver buren/wayback_archiver Homepage Documentation Source Code Bug Tracker Wiki

Post URLs to Wayback Machine (Internet Archive), using a crawler, from Sitemap(s) or a list of URLs.

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

Popularity

46,170

56

9

7

Releases

Current version

1.4.0

21

2014-07-17

2021-04-23

Activity

Issue Closure Rate

77%

Pull Request Acceptance Rate

68%

Average date of last 50 commits

2019-08-15

Reverse Dependencies

0

Show more project details Compare