Spaces:

darkbladecr
/

quesbook_search

Sleeping

Stefan commited on May 25, 2023

Commit

5b6e243

•

1 Parent(s): e250f84

fix(spaces): remove types

Files changed (2) hide show

embedding.py CHANGED Viewed

@@ -8,7 +8,7 @@ model = AutoModel.from_pretrained("intfloat/e5-large-v2")
 EMBEDDING_CHAR_LIMIT = 512
-def average_pool(last_hidden_states: Tensor, attention_mask: Tensor) -> Tensor:
     last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
     return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

 EMBEDDING_CHAR_LIMIT = 512
+def average_pool(last_hidden_states: Tensor, attention_mask: Tensor):
     last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
     return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

processing.py CHANGED Viewed

@@ -30,7 +30,7 @@ def unmark(text):
     return __md.convert(text)
-def clean_md(text: str) -> list[str]:
     cleantext = re.sub(HTMLR, "", text)
     cleantext = re.sub(LIGHTGALLERY, "", cleantext)
     para = cleantext.split("\n#")
@@ -42,7 +42,7 @@ def clean_md(text: str) -> list[str]:
 start_seq_length = num_tokens_from_str("passage: ")
-def truncate_to_sequences(text: str, max_char=EMBEDDING_CHAR_LIMIT) -> list[str]:
     sequence_length = num_tokens_from_str(text) // (max_char - start_seq_length) + 1
     length = len(text)
     separator = length // sequence_length

     return __md.convert(text)
+def clean_md(text: str):
     cleantext = re.sub(HTMLR, "", text)
     cleantext = re.sub(LIGHTGALLERY, "", cleantext)
     para = cleantext.split("\n#")
 start_seq_length = num_tokens_from_str("passage: ")
+def truncate_to_sequences(text: str, max_char=EMBEDDING_CHAR_LIMIT):
     sequence_length = num_tokens_from_str(text) // (max_char - start_seq_length) + 1
     length = len(text)
     separator = length // sequence_length