Vue lecture

2305.08596v2.pdf

Des recherches récentes ont suggéré qu'il existe différences évidentes entre le langage utilisé sur le Dark Web par rapport à celui du Surface Web.

Comme les études sur le Dark Web requièrent généralement une analyse textuelle du domaine, le langage utilisé dans le Dark Web n'est pas toujours le même.

Les modèles de langage spécifiques au Dark Web peuvent aux chercheurs des informations précieuses.

Dans ce travail,
nous présentons DarkBERT, un modèle de langage
de langage pré-entraîné sur les données du Dark Web.

Nous décrivons les étapes suivies pour filtrer et compiler les données textuelles
texte utilisées pour entraîner DarkBERT afin de lutter contre l'extrême diversité lexicale et structurelle du Dark Web qui peut être préjudiciable à la construction d'une représentation correcte du domaine.

Nous évaluons DarkBERT et son homologue "vanilla" ainsi que d'autres modèle de langage largement utilisés pour valider les avantages qu'un modèle spécifique au Dark Web offre dans divers cas d'utilisation.

Nos évaluations montrent que DarkBERT surpasse les modèles de langage actuels et qu'il peut servir de modèle de référence pour les recherches futures sur le Dark Web.


Permalien

New CVM algorithm - Counting Distinct Elements in Streams: An Algorithm for the (Text) Book - arXiv

A new count-distinct algorithm:

We present a simple, intuitive, sampling-based space-efficient algorithm whose description and the proof are accessible to undergraduates with the knowledge of basic probability theory.

Donald Knuth likes it: https://www-cs-faculty.stanford.edu/~knuth/papers/cvm-note.pdf

Their algorithm is not only interesting, it is extremely simple.
Furthermore, it’s wonderfully suited to teaching students who are learning the basics of computer science.
I’m pretty sure that something like this will eventually become a standard textbook topic.

There is the CWEB implementation he produced: cvm-estimates.w (archive.org)

Source: https://jmason.ie/2024/05/21/165901a.html

Interesting HackerNews comments: https://news.ycombinator.com/item?id=40379175


Permalink
❌