Гайды

Обучаем Word2vec: практикум по созданию векторных моделей языка

Как использовать в своей повседневной работе векторные семантические модели и библиотеку Word2Vec? Это несложно: понадобится немного кода на Python и (для второй части) готовые векторные модели — например, с сайта RusVectores. Публикуем наш тьюториал по Word2vec

Покажи мне свой Spotify, и я покажу тебе, кто ты

«Spotify опоздал» — говорят одни. «Spotify — всего лишь один из многих!», — говорят другие. «Spotify неудобен» — говорят третьи. А мы говорим: «У Spotify есть открытый API — и мы идем исследовать себя!»

Как с помощью WEB API от Spotify можно проанализировать свой плейлист и свои музыкальные пристрастия? Мы расскажем и покажем. И код на Github зальем!

Как делать тематическое моделирование без боли и командной строки

«Системный Блокъ» уже рассказывал, как делать тематическое моделирование при помощи Mallet — классического инструмента выделения тем с опорой на алгоритм LDA. Однако есть и более современные инструменты, не требующие возни с командной строкой. На этот раз мы расскажем об одном из таких инструментов — сервисе TopicModellingTool, а также о визуализации тем при помощи Tableau Public

Где учить Python: обзор онлайн-курсов от «Системного Блока»

Научиться программировать мечтают многие, но как выбрать подходящий курс из сотен доступных вариантов? Мы сделали обзор курсов по Python, которые проходили сами

Ищем смыслы: как сделать тематическое моделирование корпуса текстов

Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования может каждый — а научиться можно в нашем тьюториале. Здесь вы найдете пошаговое руководство с решением основных технических трудностей

Как находить похожие слова с помощью расстояния Левенштейна?

Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна

Обкачка сайтов своими руками: разбираемся с HTML

Как автоматически собирать данные в интернете с помощью нескольких строк кода

Корпус из твитов своими руками

Краткая инструкция о том, как просто собрать данные из твиттера для своего исследования

Регулярные выражения. Часть 3

Экранирование символов, волшебная точка и поиск всего чего угодно. Продолжение серии уроков по регулярным выражениям

Регулярные выражения. Часть 2

Как найти все цифры в учебнике по истории, амперсанты в англоязычной статье и все, кроме кириллицы, в «Войне и мире»? Подробнее поговорим про классы символов, диапазоны и отрицание

Регулярные выражения. Часть 1

Что такое регулярные выражения? Рассказываем основы — зачем они нужны, из чего состоят и что такое классы символов