Update:

- Text Categorization - Crawler, Extraction, and Chunking strategies - Clustering for semantic segmentation
2024-05-12 22:37:21 +08:00
parent 7039e3c1ee
commit 82706129f5
19 changed files with 84568 additions and 102 deletions
--- a/models/reuters/config.cfg
+++ b/models/reuters/config.cfg
@@ -0,0 +1,144 @@
+[paths]
+train = null
+dev = null
+vectors = null
+init_tok2vec = null
+
+[system]
+seed = 0
+gpu_allocator = null
+
+[nlp]
+lang = "en"
+pipeline = ["textcat_multilabel"]
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+batch_size = 1000
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
+
+[components]
+
+[components.textcat_multilabel]
+factory = "textcat_multilabel"
+scorer = {"@scorers":"spacy.textcat_multilabel_scorer.v2"}
+threshold = 0.5
+
+[components.textcat_multilabel.model]
+@architectures = "spacy.TextCatEnsemble.v2"
+nO = null
+
+[components.textcat_multilabel.model.linear_model]
+@architectures = "spacy.TextCatBOW.v3"
+exclusive_classes = false
+length = 262144
+ngram_size = 1
+no_output_layer = false
+nO = null
+
+[components.textcat_multilabel.model.tok2vec]
+@architectures = "spacy.Tok2Vec.v2"
+
+[components.textcat_multilabel.model.tok2vec.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = 64
+rows = [2000,2000,500,1000,500]
+attrs = ["NORM","LOWER","PREFIX","SUFFIX","SHAPE"]
+include_static_vectors = false
+
+[components.textcat_multilabel.model.tok2vec.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 64
+window_size = 1
+maxout_pieces = 3
+depth = 2
+
+[corpora]
+
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+gold_preproc = false
+max_length = 0
+limit = 0
+augmenter = null
+
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+gold_preproc = false
+max_length = 0
+limit = 0
+augmenter = null
+
+[training]
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+accumulate_gradient = 1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+annotating_components = []
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+before_to_disk = null
+before_update = null
+
+[training.batcher]
+@batchers = "spacy.batch_by_words.v1"
+discard_oversize = false
+tolerance = 0.2
+get_length = null
+
+[training.batcher.size]
+@schedules = "compounding.v1"
+start = 100
+stop = 1000
+compound = 1.001
+t = 0.0
+
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+learn_rate = 0.001
+
+[training.score_weights]
+cats_score = 1.0
+cats_score_desc = null
+cats_micro_p = null
+cats_micro_r = null
+cats_micro_f = null
+cats_macro_p = null
+cats_macro_r = null
+cats_macro_f = null
+cats_macro_auc = null
+cats_f_per_type = null
+
+[pretraining]
+
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+
+[initialize.components]
+
+[initialize.tokenizer]
--- a/models/reuters/meta.json
+++ b/models/reuters/meta.json
@@ -0,0 +1,122 @@
+{
+  "lang":"en",
+  "name":"pipeline",
+  "version":"0.0.0",
+  "spacy_version":">=3.7.4,<3.8.0",
+  "description":"",
+  "author":"",
+  "email":"",
+  "url":"",
+  "license":"",
+  "spacy_git_version":"bff8725f4",
+  "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null,
+    "mode":"default"
+  },
+  "labels":{
+    "textcat_multilabel":[
+      "acq",
+      "alum",
+      "barley",
+      "bop",
+      "carcass",
+      "castor-oil",
+      "cocoa",
+      "coconut",
+      "coconut-oil",
+      "coffee",
+      "copper",
+      "copra-cake",
+      "corn",
+      "cotton",
+      "cotton-oil",
+      "cpi",
+      "cpu",
+      "crude",
+      "dfl",
+      "dlr",
+      "dmk",
+      "earn",
+      "fuel",
+      "gas",
+      "gnp",
+      "gold",
+      "grain",
+      "groundnut",
+      "groundnut-oil",
+      "heat",
+      "hog",
+      "housing",
+      "income",
+      "instal-debt",
+      "interest",
+      "ipi",
+      "iron-steel",
+      "jet",
+      "jobs",
+      "l-cattle",
+      "lead",
+      "lei",
+      "lin-oil",
+      "livestock",
+      "lumber",
+      "meal-feed",
+      "money-fx",
+      "money-supply",
+      "naphtha",
+      "nat-gas",
+      "nickel",
+      "nkr",
+      "nzdlr",
+      "oat",
+      "oilseed",
+      "orange",
+      "palladium",
+      "palm-oil",
+      "palmkernel",
+      "pet-chem",
+      "platinum",
+      "potato",
+      "propane",
+      "rand",
+      "rape-oil",
+      "rapeseed",
+      "reserves",
+      "retail",
+      "rice",
+      "rubber",
+      "rye",
+      "ship",
+      "silver",
+      "sorghum",
+      "soy-meal",
+      "soy-oil",
+      "soybean",
+      "strategic-metal",
+      "sugar",
+      "sun-meal",
+      "sun-oil",
+      "sunseed",
+      "tea",
+      "tin",
+      "trade",
+      "veg-oil",
+      "wheat",
+      "wpi",
+      "yen",
+      "zinc"
+    ]
+  },
+  "pipeline":[
+    "textcat_multilabel"
+  ],
+  "components":[
+    "textcat_multilabel"
+  ],
+  "disabled":[
+
+  ]
+}
--- a/models/reuters/textcat_multilabel/cfg
+++ b/models/reuters/textcat_multilabel/cfg
@@ -0,0 +1,95 @@
+{
+  "labels":[
+    "acq",
+    "alum",
+    "barley",
+    "bop",
+    "carcass",
+    "castor-oil",
+    "cocoa",
+    "coconut",
+    "coconut-oil",
+    "coffee",
+    "copper",
+    "copra-cake",
+    "corn",
+    "cotton",
+    "cotton-oil",
+    "cpi",
+    "cpu",
+    "crude",
+    "dfl",
+    "dlr",
+    "dmk",
+    "earn",
+    "fuel",
+    "gas",
+    "gnp",
+    "gold",
+    "grain",
+    "groundnut",
+    "groundnut-oil",
+    "heat",
+    "hog",
+    "housing",
+    "income",
+    "instal-debt",
+    "interest",
+    "ipi",
+    "iron-steel",
+    "jet",
+    "jobs",
+    "l-cattle",
+    "lead",
+    "lei",
+    "lin-oil",
+    "livestock",
+    "lumber",
+    "meal-feed",
+    "money-fx",
+    "money-supply",
+    "naphtha",
+    "nat-gas",
+    "nickel",
+    "nkr",
+    "nzdlr",
+    "oat",
+    "oilseed",
+    "orange",
+    "palladium",
+    "palm-oil",
+    "palmkernel",
+    "pet-chem",
+    "platinum",
+    "potato",
+    "propane",
+    "rand",
+    "rape-oil",
+    "rapeseed",
+    "reserves",
+    "retail",
+    "rice",
+    "rubber",
+    "rye",
+    "ship",
+    "silver",
+    "sorghum",
+    "soy-meal",
+    "soy-oil",
+    "soybean",
+    "strategic-metal",
+    "sugar",
+    "sun-meal",
+    "sun-oil",
+    "sunseed",
+    "tea",
+    "tin",
+    "trade",
+    "veg-oil",
+    "wheat",
+    "wpi",
+    "yen",
+    "zinc"
+  ],
+  "threshold":0.5
+}
--- a/models/reuters/textcat_multilabel/model
+++ b/models/reuters/textcat_multilabel/model
--- a/models/reuters/tokenizer
+++ b/models/reuters/tokenizer
--- a/models/reuters/vocab/key2row
+++ b/models/reuters/vocab/key2row
@@ -0,0 +1 @@
+<EFBFBD>
--- a/models/reuters/vocab/lookups.bin
+++ b/models/reuters/vocab/lookups.bin
@@ -0,0 +1 @@
+<EFBFBD>
--- a/models/reuters/vocab/strings.json
+++ b/models/reuters/vocab/strings.json
--- a/models/reuters/vocab/vectors
+++ b/models/reuters/vocab/vectors
--- a/models/reuters/vocab/vectors.cfg
+++ b/models/reuters/vocab/vectors.cfg
@@ -0,0 +1,3 @@
+{
+  "mode":"default"
+}