feat(browser-farm): Add Docker browser support for remote crawling

Implement initial MVP for Docker-based browser management in Crawl4ai, enabling remote browser execution in containerized environments. Key Changes: - Add browser_farm module with Docker support components: * BrowserFarmService: Manages browser endpoints * DockerBrowser: Handles Docker browser communication * Basic health check implementation * Dockerfile with optimized Chrome/Playwright setup: - Based on python:3.10-slim for minimal size - Includes all required system dependencies - Auto-installs crawl4ai and sets up Playwright - Configures Chrome with remote debugging - Uses socat for port forwarding (9223) - Update core components: * Rename use_managed_browser to use_remote_browser for clarity * Modify BrowserManager to support Docker mode * Add Docker configuration in BrowserConfig * Update context handling for remote browsers - Add example: * hello_world_docker.py demonstrating Docker browser usage Technical Details: - Docker container exposes port 9223 (mapped to host:9333) - Uses CDP (Chrome DevTools Protocol) for remote connection - Maintains compatibility with existing managed browser features - Simplified endpoint management for MVP phase - Optimized Docker setup: * Minimal dependencies installation * Proper Chrome flags for containerized environment * Headless mode with GPU disabled * Security considerations (no-sandbox mode) Testing: - Extensive Docker configuration testing and optimization - Verified with hello_world_docker.py example - Confirmed remote browser connection and crawling functionality - Tested basic health checks This is the first step towards a scalable browser farm solution, setting up the foundation for future enhancements like resource monitoring, multiple browser instances, and container lifecycle management.
2025-01-02 18:41:36 +08:00
parent 24b3da717a
commit 7aaaaae461
16 changed files with 1072 additions and 73 deletions
--- a/docs/md_v2/advanced/identity_based_crawling.md
+++ b/docs/md_v2/advanced/identity_based_crawling.md
@@ -24,7 +24,7 @@ Crawl4AI empowers you to navigate and interact with the web using your authentic
       headless=False,  # Set to False for initial setup to view browser actions
       verbose=True,
       user_agent_mode="random",
-       use_managed_browser=True,  # Enables persistent browser sessions
+       use_remote_browser=True,  # Enables persistent browser sessions
       browser_type="chromium",
       user_data_dir="/path/to/user_profile_data"  # Path to save session data
   )
@@ -61,7 +61,7 @@ async def main():
    browser_config = BrowserConfig(
        headless=True,  # Automate subsequent runs
        verbose=True,
-        use_managed_browser=True,
+        use_remote_browser=True,
        user_data_dir="/path/to/user_profile_data"
    )

--- a/docs/md_v2/advanced/managed_browser.md
+++ b/docs/md_v2/advanced/managed_browser.md
@@ -63,7 +63,7 @@ async with AsyncWebCrawler(config=config) as crawler:
 ```

 ### Managed Browser
-The `ManagedBrowser` class offers a high-level abstraction for managing browser instances, emphasizing resource management, debugging capabilities, and anti-bot measures.
+The `RemoteConnector` class offers a high-level abstraction for managing browser instances, emphasizing resource management, debugging capabilities, and anti-bot measures.

 #### How It Works
 - **Browser Process Management**:
@@ -82,7 +82,7 @@ The `ManagedBrowser` class offers a high-level abstraction for managing browser
 - **Scalability**:
  - Handles multiple browser instances concurrently, scaling dynamically based on workload.

-#### Example: Using `ManagedBrowser`
+#### Example: Using `RemoteConnector`
 ```python
 from crawl4ai import AsyncWebCrawler, BrowserConfig

--- a/docs/md_v2/api/parameters.md
+++ b/docs/md_v2/api/parameters.md
@@ -10,7 +10,7 @@
 | async_crawler_strategy.py | headers | `kwargs.get("headers", {})` | AsyncPlaywrightCrawlerStrategy | Custom HTTP headers for requests |
 | async_crawler_strategy.py | verbose | `kwargs.get("verbose", False)` | AsyncPlaywrightCrawlerStrategy | Enable detailed logging output |
 | async_crawler_strategy.py | sleep_on_close | `kwargs.get("sleep_on_close", False)` | AsyncPlaywrightCrawlerStrategy | Add delay before closing browser |
-| async_crawler_strategy.py | use_managed_browser | `kwargs.get("use_managed_browser", False)` | AsyncPlaywrightCrawlerStrategy | Use managed browser instance |
+| async_crawler_strategy.py | use_remote_browser | `kwargs.get("use_remote_browser", False)` | AsyncPlaywrightCrawlerStrategy | Use managed browser instance |
 | async_crawler_strategy.py | user_data_dir | `kwargs.get("user_data_dir", None)` | AsyncPlaywrightCrawlerStrategy | Custom directory for browser profile data |
 | async_crawler_strategy.py | session_id | `kwargs.get("session_id")` | AsyncPlaywrightCrawlerStrategy | Unique identifier for browser session |
 | async_crawler_strategy.py | override_navigator | `kwargs.get("override_navigator", False)` | AsyncPlaywrightCrawlerStrategy | Override browser navigator properties |
--- a/docs/md_v2/basic/docker-deploymeny.md
+++ b/docs/md_v2/basic/docker-deploymeny.md
@@ -489,7 +489,7 @@ request = {
        
        # Session Management
        "user_data_dir": "./browser-data",   # Browser profile location
-        "use_managed_browser": True,         # Use persistent browser
+        "use_remote_browser": True,         # Use persistent browser
    }
 }
 ```