Class WebsiteCrawlConfig

java.lang.Object
com.bytedesk.kbase.llm_website.crawl.WebsiteCrawlConfig

public class WebsiteCrawlConfig extends Object
网站抓取配置
  • Field Details

    • maxDepth

      private int maxDepth
      抓取深度(1-5层)
    • maxPages

      private int maxPages
      最大抓取页面数
    • concurrentThreads

      private int concurrentThreads
      并发线程数
    • timeout

      private int timeout
      请求超时时间(毫秒)
    • delay

      private int delay
      请求间隔延迟(毫秒)
    • userAgent

      private String userAgent
      用户代理
    • useSitemap

      private boolean useSitemap
      是否使用sitemap
    • sitemapUrl

      private String sitemapUrl
      sitemap URL(可选)
    • includePatterns

      private List<String> includePatterns
      包含的URL模式(正则表达式)
    • excludePatterns

      private List<String> excludePatterns
      排除的URL模式(正则表达式)
    • minContentLength

      private int minContentLength
      最小内容长度
    • deduplication

      private boolean deduplication
      是否去重
    • resumable

      private boolean resumable
      是否支持断点续传
    • priority

      private int priority
      抓取优先级(1-10,数字越大优先级越高)
    • crawlImages

      private boolean crawlImages
      是否抓取图片
    • crawlPdfs

      private boolean crawlPdfs
      是否抓取PDF文档
  • Constructor Details

    • WebsiteCrawlConfig

      public WebsiteCrawlConfig()
  • Method Details

    • isValid

      public boolean isValid()
      验证配置有效性
    • getDefault

      public static WebsiteCrawlConfig getDefault()
      获取默认配置
    • getFast

      public static WebsiteCrawlConfig getFast()
      获取快速配置(较少深度和页面数)
    • getDeep

      public static WebsiteCrawlConfig getDeep()
      获取深度配置(更大深度和页面数)