crawl4ai/crawl4ai/extraction_strategy.py at ce4f04dad2b47e67c4e96052a81ee34a4fa76cb2

Files

UncleCode 31938fb922 feat(crawler): enhance JavaScript execution and PDF processing

Add JavaScript execution result handling and improve PDF processing capabilities:
- Add js_execution_result to CrawlResult and AsyncCrawlResponse models
- Implement execution result capture in AsyncPlaywrightCrawlerStrategy
- Add batch processing for PDF pages with configurable batch size
- Enhance JsonElementExtractionStrategy with better schema generation
- Add HTML optimization utilities

BREAKING CHANGE: PDF processing now uses batch processing by default

2025-01-29 21:03:39 +08:00

48 KiB

Raw Blame History

View Raw

48 KiB Raw Blame History

48 KiB

Raw Blame History