October 27, 2021

Огромный массив данных, индекс из слов и фраз, встречающихся в научных и исследовательских публикациях на английском языке выложен в свободный доступ. В таблице n-грамм 355 миллиардов записей, всего проиндексировано более ста миллионов статей. Я не знаю где они взяли документы для индексации (вероятнее всего это Sci-Hub, да продлится онлайн его вечно), но это очень большое дело. С таким индексом можно не только банально аналитикой заниматься, но и пытаться строить штуки похожие на GPT-3 с разной степенью полезности. Представьте, систему которая за вас дописывает научные статьи. Или доливает воды по вкусу 🙂 archive.org/details/GeneralIndex

The General Index : Public Resource : Free Download, Borrow, and Streaming : Internet Archive

Welcome to the General Index The General Index consists of 3 tables derived from 107,233,728 journal articles. A table of n-grams, ranging from unigrams to...