Гайды

Образовательный портал издания Системный Блокъ

Гайды, Лингвистика, Филология 05.08.2025

Как скачать весь Telegram: автоматизация выгрузки каналов с помощью Python

Как получить доступ к огромным массивам текстов из Telegram, чтобы изучать язык медиа, тренды или реакцию общества на события в мире? В этом помогут Telegram Desktop, Python и библиотека pyrogram. В гайде с кодом рассказываем о методе «цепной реакции» для поиска и скачивания целых групп связанных каналов. Превратите Telegram в ваш исследовательский полигон!

Дмитрий Пронин

NLP, Гайды 17.12.2024

Как провести анализ тональности текста

Эмоции и их выражение в тексте — важная часть человеческой коммуникации. Но как зафиксировать эти тонкие и динамичные изменения, особенно в больших текстах? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Ответы на эти и многие другие вопросы можно получить, построив кривые эмоциональной тональности выбранных текстов. О том, как это сделать, вам расскажет этот гайд!

Дмитрий Пронин

Гайды, Филология 10.09.2024

Библиотека Faststylometry: стилометрия на Python

«Системный Блокъ» часто пишет о стилометрии и выпустил несколько учебных материалов (базовый, продвинутый и ещё один) о том, как провести собственное исследование с помощью библиотеки Stylo для языка R. А что делать тем, для кого Python удобнее? Рассказываем в новом тьюториале о стилометрии для англоязычных текстов, используя библиотеку Faststylometry.

Яна Хлусова

Гайды, Общество 16.07.2024

Что такое Викиданные (Wikidata) и как там искать информацию?

Даже заядлому поклоннику ночного сёрфинга по страницам Википедии может быть непросто собирать и систематизировать большой объём информации из свободной энциклопедии. Для работы с такими данными были созданы Викиданные (Wikidata) — большая и удобная база данных на основе Википедии. Разберёмся, как с ней работать и когда она может быть полезна.

Александра Мазалова

Гайды, Филология 14.05.2024

Какие слова отличают один корпус от другого? Продолжаем изучать Stylo

В исследованиях по определению авторства и количественному анализу стиля широко используется метод Дельта филолога Джона Бёрроуза. Однако Дельта — не единственная придуманная им стилометрическая мера. Дж. Бёрроуз также является автором меры зета, с помощью которой можно сравнивать корпуса текстов. Расчёты на её основе встроены в одну из функций пакета Stylo — oppose().

Яна Хлусова

Востоковедение, Гайды 02.05.2024

Text-mining китайского языка: гайд по библиотеке Jieba

Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.

Ярослав Соколов

Гайды, Филология 24.04.2024

Гид по Voyant Tools: анализ и визуализация

Продолжаем наше руководство по анализу текста с помощью Voyant Tools. В прошлом материале мы рассказали, как загрузить и подготовить корпус. Теперь рассмотрим, как исследовать и визуализировать ваши материалы. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Екатерина Волженина

Востоковедение, Гайды 22.04.2024

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).

Варвара Васильева, Алёна Зенина, Алина Лобанова

Гайды, Филология 17.04.2024

Гид по Voyant Tools: подготовка корпуса

«‎‎Системный Блокъ» пополняет свою коллекцию гайдов. Сегодня покажем, как сделать анализ текстов с помощью Voyant Tools, популярного инструмента среди цифровых гуманитариев. Разнообразные визуализации, частотный анализ, тренды, коллокации — вот только часть возможностей инструмента. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Екатерина Волженина

Востоковедение, Гайды 16.04.2024

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

Ирина Мусаева

Гайды, Филология 06.03.2024

Как создавать расшифровки аудиозаписей в программе ELAN

У вас есть аудиофайл от информанта и вам его нужно расшифровать? Возможно, вы пытаетесь при этом жонглировать несколькими программами сразу: у вас открыты медиаплеер, в котором вы слушаете звук, текстовый файл, в который вы записываете транскрипцию, мессенджер, в котором вы видите корректировки от руководителя. Но расшифровку можно сделать гораздо быстрее и удобнее — с помощью программы ELAN, которая была создана как раз для аннотирования звуковых и видеофайлов.

Марина Панкова

NLP, Гайды 06.02.2024

Как автоматически расшифровать аудио: пошаговая инструкция для Whisper

Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. Рассказываем, как сделать это с помощью модели Whisper от OpenAI и смотрим, насколько хорошо она справляется с русскоязычными записями

Евгения Колпащикова

Гайды, Филология 04.02.2024

Кто какую часть произведения написал? Выясняем с помощью Stylo

«‎Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений, написанных в соавторстве.

Яна Хлусова

Гайды 20.10.2023

Как распознать тексты и сделать корпус для исследования: пошаговая инструкция

От библиотечного каталога к машиночитаемым текстовым данным для компьютерного анализа: разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов

Анастасия Ермакова

Гайды, Филология 22.05.2023

Как провести стилометрический эксперимент с помощью stylo?

Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.

Мария Маслова

Гайды, Как это работает 11.05.2023

Как дообучить языковую модель писать в стиле Достоевского

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

Анастасия Марголина

NLP, Гайды 12.07.2022

«Размечено»: как распознавать именованные сущности в исторических дневниках

Дневники людей, живших в различных исторических эпохах, могут многое сказать исследователю, но анализировать их вручную — тяжело и долго. Разбираемся, как цифровые инструменты используются для упрощения анализа дневниковых записей.

Тимофей Атнашев, Екатерина Волошина, Дарья Матяш

NLP, Гайды, Как это работает 01.03.2022

Как сделать тематическое моделирование

Рассказываем, как сделать тематическое моделирование для большого объема текста, предположить его содержание и разделить по темам

Макар Фёдоров

Гайды 08.02.2022

Хмурый граф, или Как заменить узлы в Gephi на эмодзи

Визуализация сетей — хороший способ наглядно представить данные, в которых много связей. Разбираемся, как с помощью программы Gephi сделать визуализацию нескучной — например, заменить узлы на эмодзи

Алексей Киселев

Гайды, Как это работает, Филология 31.01.2022

Как плести виртуальные сети с помощью Gephi

Gephi — самый известный инструмент для визуализации графов и сетевого анализа. С его помощью можно исследовать и население Викторианской Англии, и отношения героев «Войны и мира», и странички друзей Вконтакте. Рассказываем максимально просто, как пользоваться Gephi

Михаил Мингазов

Востоковедение, Гайды, Как это работает, Лингвистика 19.10.2021

Как исследовать японские тексты с помощью Voyant Tools

Разбираемся, что такое Voyant Tools и как с его помощью можно проанализировать большой корпус текстов с YouTube на японском языке

Алексей Киселев

Гайды, Как это работает, Лингвистика 11.10.2021

Как превратить текст в генеалогическое древо с помощью Python

Как понять, кем вам приходится сваха внучатого племянника вашей сестры? Проще всего - нарисовать генеалогическое древо, которое отразит все родственные связи. А еще лучше - написать код на Python, который сделает это за вас

Анна Голуб

Гайды, Как это работает, Филология 21.10.2020

Маяковский и корпусный анализ: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии на примере исследования текстов Маяковского. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Мария Черных, Дарья Балуева

Гайды, Как это работает, Филология 14.10.2020

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Мария Черных, Дарья Балуева

Гайды, Как это работает 02.10.2020

Обучаем Word2vec: практикум по созданию векторных моделей языка

Как использовать в своей повседневной работе векторные семантические модели и библиотеку Word2Vec? Это несложно: понадобится немного кода на Python и (для второй части) готовые векторные модели — например, с сайта RusVectores. Публикуем наш тьюториал по Word2vec

Елизавета Кузьменко

Гайды, Музыка, Открытые данные 17.09.2020

Покажи мне свой Spotify, и я покажу тебе, кто ты

«Spotify опоздал» — говорят одни. «Spotify — всего лишь один из многих!», — говорят другие. «Spotify неудобен» — говорят третьи. А мы говорим: «У Spotify есть открытый API — и мы идем исследовать себя!» Как с помощью WEB API от Spotify можно проанализировать свой плейлист и свои музыкальные пристрастия? Мы расскажем и покажем. И код на Github зальем!

Артур Хисматулин

Гайды 27.12.2019

Как делать тематическое моделирование без боли и командной строки

«Системный Блокъ» уже рассказывал, как делать тематическое моделирование при помощи Mallet — классического инструмента выделения тем с опорой на алгоритм LDA. Однако есть и более современные инструменты, не требующие возни с командной строкой. На этот раз мы расскажем об одном из таких инструментов — сервисе TopicModellingTool, а также о визуализации тем при помощи Tableau Public

Вероника Ганеева, Владимир Селеверстов

Гайды 17.12.2019

Где учить Python: обзор онлайн-курсов от «Системного Блока»

Научиться программировать мечтают многие, но как выбрать подходящий курс из сотен доступных вариантов? Мы сделали обзор курсов по Python, которые проходили сами

Системный Блокъ

NLP, Гайды 06.12.2019

Ищем смыслы: как сделать тематическое моделирование корпуса текстов

Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования может каждый — а научиться можно в нашем тьюториале. Здесь вы найдете пошаговое руководство с решением основных технических трудностей

Даниил Скоринкин

Гайды, Как это работает 08.11.2019

Как находить похожие слова с помощью расстояния Левенштейна?

Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна

Екатерина Боровикова

Гайды, Как это работает 06.08.2019

Как провести корпусное исследование? Помогите!

Рассказываем, что такое mystem и antconc, для чего они нужны, и как ими пользоваться

Владимир Селеверстов

Гайды 29.03.2019

1000 друзей Павла Дурова: как выкачивать данные ВКонтакте

Обкачиваем соцсеть своими руками

Дарья Чуприна

Гайды 28.02.2019

Корпус из твитов своими руками

Краткая инструкция о том, как просто собрать данные из твиттера для своего исследования

Анна Кори

Гайды 28.11.2018

Регулярные выражения. Часть 3

Экранирование символов, волшебная точка и поиск всего чего угодно. Продолжение серии уроков по регулярным выражениям

Мариана Зорькина

Гайды 27.09.2018

Регулярные выражения. Часть 2

Как найти все цифры в учебнике по истории, амперсанты в англоязычной статье и все, кроме кириллицы, в "Войне и мире"? Подробнее поговорим про классы символов, диапазоны и отрицание

Мариана Зорькина

Гайды 05.09.2018

Регулярные выражения. Часть 1

Что такое регулярные выражения? Рассказываем основы — зачем они нужны, из чего состоят и что такое классы символов

Мариана Зорькина

О проекте

СОЦСЕТИ

Теги

Темы