Специальные рубрики

Наши статьи

Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

Компаниям, работающим над языковыми моделями, стало сложнее их улучшать, нейросеть для расшифровки белков AlphaFold3 теперь доступна исследователям, новые версии моделей от Qwen для генерации кода — что произошло в мире ИИ за последнее время.

Как найти в геноме проблему? Зачем секвенировать здоровых людей

Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Сегодня этот метод используют, чтобы точнее ставить диагнозы при генетических заболеваниях и выявлять редкие мутации. Но как диагностике помогает массовое секвенирование геномов здоровых людей? Рассказываем в нашем материале.

Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

OpenAI и Google объединяют LLM и поисковые системы, Anthropic обновила свои языковые модели, а компания Genmo выпустила самую большую на сегодня открытую модель для генерации видео с 10 млрд параметров.

Машинное обучение и японская уличная мода: как возникают и распространяются стили

Зачем компьютерные науки изучают уличную моду? Можно ли с помощью цифровой базы изображений одежды предсказывать появление и угасание новых стилей? Правда ли, что женский костюм отражает экономическое состояние страны? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.

Тысяча монгольских буддистских монастырей на одной интерактивной карте

Интересуетесь буддизмом, Внутренней Азией, Монголией? Посмотрите на карту более чем тысячи буддистских монастырей на территории Монголии! Рассказываем про онлайн-проект Mapping a Thousand Buddhist Monasteries in Mongolia, где помимо карты монастырей можно найти устные истории, образцы религиозной живописи, биографии лам.

Нобелевские премии за нейросети, ИИ-функции в приложениях Adobe, новые модели от Mistral

Две нобелевские премии вручены за работы, связанные с машинным обучением, Adobe добавила новые ИИ-функции в свои продукты, Mistral представила новые компактные языковые модели — рассказываем, что произошло в мире ИИ за последнее время.

10 слов машинного обучения

Что такое языковые модели, как их обучают и зачем нужна тестовая выборка? Объясняем основные термины машинного обучения.

Тест: угадайте произведение по частотным словам из Национального корпуса русского языка

В каком произведении школьной программы умирают лягушки, а в каком — скачут блохи? Пройдите наш тест на основе Национального корпуса русского языка и попробуйте отличить Гоголя от Салтыкова-Щедрина, а Лермонтова от Блока.

Гендерное неравенство в литературе: от персонажей до писательниц

Проблема гендерного неравенства заметна во всех сферах общества — в том числе в литературе. Писательниц было традиционно меньше, чем писателей, сюжетные линии между персонажами разного пола представлены неравномерно, а гендерные стереотипы касаются и героев, и героинь произведений. В подборке материалов «Системного Блока» мы рассказываем о роли женщин в литературном процессе и о том, почему представители обоих полов по-разному воспринимаются как авторами, так и читателями.

Что изучают антропологи в интернете? Подборка материалов «Системного Блока»

Развитие интернета и цифровых технологий открыло новое поле исследований для антропологов. Учёные осознали, что в онлайн-среде формируются уникальные сообщества, культуры и практики, которые можно и нужно изучать. Публикуем подборку наших материалов о цифровой антропологии. Из неё вы узнаете, какие методы можно применить к исследованию интернет-пространства, как за последние 40 лет изменились интернет-интерфейсы и зачем собирать слухи в соцсетях?

Все художественные тексты похожи друг на друга: как сюжетные тенденции выражаются на уровне слов

Знакомясь с новой книгой, вы наверняка замечали, что с чем-то подобным вам уже приходилось сталкиваться. Герой покидает дом в поисках чего-то ценного. Герой находит большую любовь в конце истории или, наоборот, трагически погибает. Таинственный незнакомец приносит вести, становящиеся фундаментом для завязки сюжета. А как выглядит «усреднённая» история? Существуют ли слова, которые наиболее характерны для завязки или финала книги? Попробуем разобраться, используя методы цифровой гуманитаристики!

Что почитать про цифровое образование ко Дню учителя

5 октября в России и других странах отмечали профессиональный праздник — День учителя (World Teachers' Day). История этого праздника начинается в 1966 году, когда была принята Рекомендация «О положении учителей» — первый международный документ о правах и условиях труда педагогов. «Системный Блокъ» сделал подборку статей, которые будут полезны преподавателям. В этих материалах мы рассказываем о тенденциях в современном образовании и конкретных профессиональных инструментах.

Большие изменения в OpenAI, долгожданное обновление голосового режима GPT, новые LLama

Техническая директриса OpenAI ушла из компании, а сооснователь перешёл к конкуренту, GPT получила обновлённый голосовой режим, Meta и Google выпустили новые модели — что произошло за последнее время в мире ИИ.

Как поймать бактерию на плагиате: чем поиск переноса генов похож на NLP

Не только филологов и юристов волнует проблема авторства. Живые организмы тоже могут списывать друг у друга — прямо из генетического кода! Рассказываем, как и зачем биологи ищут в геномах фрагменты ДНК, заимствованные у других организмов, и какие компьютерные алгоритмы для этого используются.

Что можно узнать о ругательствах с помощью Национального корпуса русского языка?

Кто из русских писателей больше ругался? Какое имя теперь раньше было обычным, а теперь стало обидным? Можно ли обнаружить, в какой момент нейтральное слово становится бранным? Пройдите наш тест и узнайте, как можно изучать ругательства с помощью Национального корпуса русского языка.

Запрограммированная сюита: взлёт и падение механического пианино на перфоленте

Мы уже рассказывали о роли перфолент в истории компьютеров. А какую роль они сыграли в истории музыкальных технологий? Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов рассказывает, как появилось механическое фортепиано и зачем в нём перфолента.

Тест: как найти свой восточный язык?

Иногда сложно понять, какой язык нам ближе и нужнее. Хочется и аниме, и корейские дорамы смотреть в оригинале без субтитров, а то и отправиться в Китай или подняться на верхний этаж небоскрёба в ОАЭ. Если вы вдруг решили изучать восточную культуру и начать с языка, но никак не можете определиться, то этот тест для вас.

Новые модели от OpenAI, Mistral делает ИИ доступнее и запаздывающий Apple Intelligence

OpenAI представила модель, способную «рассуждать», француский стартап Mistral снизил цены на свои модели, Apple отстаёт в гонке за ИИ машинного обучения в смартфонах — что произошло за последнее время в мире ИИ.

Телеграф, телетайп, компьютер: всемирная история перфолент

Хотя перфолента появилась раньше перфокарт, применение ей нашлось не сразу. Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов рассказывает о том, как с помощью перфолент постепенно удалось улучшить телеграф, а затем и компьютерные интерфейсы 1960-х годов.

«Предсказание революций и землетрясений мало чем отличаются»: интервью с Андреем Коротаевым о смертности в 90-е, клиодинамике и прогнозировании социальных взрывов

Можно ли моделировать исторические процессы при помощи баз данных и математических инструментов? Что даёт такое моделирование и каковы его границы? Почему после распада СССР смертность в России и Эстонии была гораздо выше, чем в Грузии, Армении или Узбекистане? Какие факторы позволяют предсказать социальный взрыв и почему повышение качества жизни может привести к революции? Об этом в интервью «Системному Блоку» рассказал доктор исторических наук Андрей Коротаев.

Виртуальная валюта в образовании: мотивируют ли учиться игровые деньги?

Образовательные технологии (эдтех) заимствуют у игровой индустрии способы мотивации учащихся. Среди них — внедрение виртуальной валюты. Но подтверждается ли эффективность виртуальных денег в образовании? Эксперименты показывают, что всё не так однозначно, иначе обучающиеся в школах и на курсах давно стали бы «виртуальными миллионерами».

Библиотека Faststylometry: стилометрия на Python

«Системный Блокъ» часто пишет о стилометрии и выпустил несколько учебных материалов (базовый, продвинутый и ещё один) о том, как провести собственное исследование с помощью библиотеки Stylo для языка R. А что делать тем, для кого Python удобнее? Рассказываем в новом тьюториале о стилометрии для англоязычных текстов, используя библиотеку Faststylometry.

AlphaProteo, стартап Ильи Суцкевера привлёк огромные инвестиции и самый мощный кластер для компаний Илона Маска

Нейросеть для генерации белков от Google DeepMind, экс-исследователь OpenAI привлекает миллиард долларов, Илон Маск обзавелся самым мощным кластером для обучения нейросетей — что прошло в мире ИИ за последнее время.

Перфокарта: от механических баз данных к цифровым

В первой части рассказа о перфокартах мы узнали о том, как причудливо прошла история перфокарт от древнего ремесла ткачества до аналитических машин. Во второй части «Системный Блокъ» изучает, что же произошло дальше. А произошло немало: перфокарты через гомеопатию, переписи населения и первые базы данных привели к созданию компьютеров! Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов описывает, какое наследие технологии из XVIII века мы имеем сейчас.

Чему учат в цифровой школе? Альтернативное расписание уроков к 1 сентября от «Системного Блока»

Как бы выглядела школа «Системного Блока» и чему бы в ней учили? К началу учебного года мы составили альтернативное расписание и подобрали материалы.

Патинко: взгляд нейробиолога, медика, DH-исследователя и киноведа

Игровые автоматы патинко появились в Японии ещё до Второй мировой войны и за свою историю успели пережить запрет и возрождение. В преддверии выхода второго сезона одноимённого сериала поговорим о том, как патинко исследуют нейробиологи и медики, разберёмся, что привлекательного обнаруживают в их интерфейсах цифровые гуманитарии и почему стоит посмотреть сериал, даже если вы не учёный.

Тексты, звуки, экспонаты: подборка интервью о цифровых коллекциях

Оцифровка и сохранение артефактов культуры — одна из важнейших задач цифровой гуманитаристики. Мы собрали для вас интервью четырёх исследователей и одного гражданского активиста о том, кто, зачем и для кого коллекционирует цифровые данные.

Может ли робот прочитать папирус: как ИИ помогает восстанавливать утраченные тексты

Кажется, история из «‎Гостьи из будущего», где один из героев спасал рукописи из Александрийской библиотеки, стала реальностью. В начале 2024 года исследователям удалось прочитать сгоревший папирус из Геркуланума с помощью искусственного интеллекта.

Перфокарта: от ткацкого станка до аналитической машины

Помните ли вы времена, когда компьютеры работали на перфокартах? Листы плотной бумаги с дырочками — они использовались до того, как появились дискеты, компакт-диски и флешки. Начав свою историю с ткацких станков, перфокарты помогли создать первые базы данных и сыграли важную роль в создании вычислительных машин. Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов изучает, как изобретение XVIII века заложило основу цифровой эпохи. Публикуем первую часть «биографии» перфокарт.

Тайны древней ДНК: как палеогенетика и биоинформатика помогают археологам

Можно ли узнать, чем болели люди в каменном веке, изучив остатки ДНК из их зубов? Да, если на помощь придут палеогенетика в связке с биоинформатикой. Палеогенетика изучает древнюю ДНК, чтобы понять, куда и откуда мигрировали древние люди, какие возбудители вызывали эпидемии, какие виды гибризовались, чтобы получился современный человек. Об этих подходах рассказывает Андрей Макашов, преподаватель специалитета в Высшей школе биомедицинских систем и технологий петербургского Политеха.

Цифровая охота: как «поймать» всех животных в тексте

Что влияет на распределение содержательных слов в тексте сильнее: литературная традиция или внешние факторы? Кирилл Маслинский, исследователь литературы, сотрудник Пушкинского дома и создатель Деткорпуса, изучает процесс создания контента. Он использует модель роста словаря, чтобы оценить разнообразие концептов семантической области «‎‎животные»‎ в разных жанрах детской литературы, и вычисляет, какие животные вероятнее встретятся в каждом жанре. В ужастиках, конечно, на первом месте — змеи, а вот в научной фантастике частыми гостями неожиданно становятся морские обитатели. Расскажем о методе и результатах этого исследования.

Птички, цветочки и запахи городов: подборка материалов для летнего чтения

Лето почти закончилось, но это не значит, что всё потеряно. Ещё можно успеть насладиться августом: съездить в путешествие, сходить в лес, собрать гербарий, посмотреть выставки. Но ещё лучше, если сделать всё это в духе digital humanities. Как соединить технологии и летние радости, читайте в нашей сезонной подборке.

Языковые модели — это адронный коллайдер для языка: интервью с Татьяной Шавриной

Куда развивается искусственный интеллект и какие новые умения он приобретет в ближайшем будущем? Что делать с тем, что коммерческие продукты вроде ChatGPT созданы на основе украденной интеллектуальной собственности? Есть ли внутри современных нейросетевых моделей что-то вроде физической модели мира? (Спойлер: кажется, нет.) Об этом «Системный Блокъ» поговорил с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA.

«Короче, Пушкин!»: как нейросети пересказали школьную программу

Сотни тысяч школьников ищут способ упростить себе подготовку к экзамену по литературе. Кто-то ищет краткие пересказы произведений, а кто-то просит помощи у нейросети, не догадываясь, что та может оказать им медвежью услугу. Насколько точен и адекватен анализ от ИИ? Чтобы узнать это, мы провели эксперимент и протестировали три самых популярных нейросети.

Исход людей из OpenAI, новые модели для решения математических задач и SAM 2

Сооснователь OpenAI ушёл к конкурентам, а технический директор объявил о длительном отпуске, релиз семейства математических моделей Qwen и новая модель для сегментации объектов на изображениях и видео от Meta*. Рассказываем, что произошло в мире ИИ за последние две недели.

Какие темы интересуют современных востоковедов и как им помогают в исследованиях цифровые технологии?

Что узнали учёные, исследующие религиозность африканцев? Какие инструменты помогают анализировать древние рукописные иероглифы и токенизировать азиатские тексты? И что творят с цифровыми технологиями японцы? Читайте в нашей востоковедческой подборке статей от «Системного Блока».

Романтика в эпоху больших данных: что делает аниме хитом?

«Твоя апрельская ложь», «Форма голоса», «Очень приятно, Бог»… Романтическое аниме овладело сердцами миллионов зрителей по всему миру. Но что именно делает этот жанр таким привлекательным? За ответом обратимся к большим данным. Статья написана в рамках проекта НИУ ВШЭ по анализу данных «Цифровые методы в востоковедении: опыт описания исследовательской работы».

Подборка статей о цифровых музыкальных исследованиях

О чём пели в российской попсе за последние тридцать лет? Можно ли посчитать, насколько депрессивна моя любимая песня? Куда идти, если я хочу провести своё исследование большого пласта музыки? В подборке статей «Системного Блока» — проекты цифровых музыковедов и интернет-ресурсы, которые могут помочь исследователю.

Новые модели от OpenAI, Mistral и Meta*: дайджест новостей ИИ

OpenAI выпустила компактную дешёвую версию GPT-4, Meta* обновила семейство моделей LLama 3, релиз четырёх новых LLM от Mistral. Рассказываем, что произошло в мире ИИ за последние две недели.

Как работает большая языковая модель: перцептроны в чёрном ящике

Несмотря на стремительное развитие больших языковых моделей, исследователи до сих пор плохо понимают, как и почему нейросети выдают тот или иной ответ. Однако изучение этих проблем находится на переднем крае компьютерных наук. В нашем новом материале рассказываем о механизмах работы языковых моделей. В первой части мы объясняем, почему нейросети работают, как «чёрные коробки», что такое интерпретируемость в контексте машинного обучения и как компьютеры моделируют работу нейрона.

В Японии запустили первую VR-школу

«Системный Блокъ» рассказывает о первой в Японии VR-школе. Ученики этой школы посещают занятия онлайн в Метавселенной, выбрав 3D-аватар в стиле аниме. Несмотря на необычный формат, проект одобрен Минобразования Японии, учебный план соответствует стандартам, а выпускные документы имеют официальный статус.

«В России история интернета не написана никем»: Леонид Юлдашев об изучении интернета, кибернетике, Starlink и Чебурнете

Как исследователи пишут историю интернета? Почему глобальная сеть вытеснила национальные проекты вроде французского Minitel? Почему достижения советской кибернетики не привели к созданию работающих сетей? Кто стоял у истоков Рунета и куда Рунет движется сегодня? Обо всём этом «Системному Блоку» рассказал Леонид Юлдашев, социолог, исследователь истории интернета, в прошлом координатор клуба любителей интернета и общества.

Что такое Викиданные (Wikidata) и как там искать информацию?

Даже заядлому поклоннику ночного сёрфинга по страницам Википедии может быть непросто собирать и систематизировать большой объём информации из свободной энциклопедии. Для работы с такими данными были созданы Викиданные (Wikidata) — большая и удобная база данных на основе Википедии. Разберёмся, как с ней работать и когда она может быть полезна.

Новая модель для дизайна белков, скорый выход самой большой LLama и FlashAttention 3

Llama 3 с 405 миллиардами параметров выйдет в конце июля. Компания EvolutionaryScale представила большую модель для дизайна белков. В главный блок всех языковых моделей на трансформерной архитектуре — блок внимания (attention) — добавили новые оптимизации. Рассказываем, что произошло в мире ИИ за последние две недели.

Лазер из iPhone: как найти древнюю цивилизацию с помощью LiDAR

Современным археологам недостаточно лопаты, мастерка и кисточки для полевой работы. Чтобы обнаружить скрытые в густых лесах под слоем почвы города и дороги, учёные сканируют пространство с помощью лазера. Рассказываем, как работает LiDAR — технология, которая сегодня есть в обычном айфоне, и как LiDAR помогает делать археологические открытия в джунглях Амазонки, на Тихоокеанских островах и прямо посреди Европы.

Филологи и программирование: подборка интервью «Системного Блока»

Лингвистика и программирование. Филология и программирование. Нужны ли они друг другу? Нужно ли гуманитариям вообще уметь программировать или же все учёные чётко делятся на физиков и лириков? «Системный Блокъ» считает, что их знания можно взболтать, но не смешивать. Читаем интервью «Системного Блока» о том, насколько важно современным гуманитариям знание Python и нейросетей.

Проверяем авторство: стилометрия для японских текстов

Стилометрия — это количественный метод в лингвистике, литературоведении и других гуманитарных науках, который определяет авторский стиль с помощью статистических метрик. Метод применяется для того, чтобы установить авторство спорного текста, датировать текст (такие исследования называются стилохронометрией) или определить другие метаданные, такие как жанр текста или пол автора. На примере работы японской исследовательницы Уэсака Аяка мы расскажем о том, как с помощью стилометрии было поставлено под сомнение авторство повести, приписываемой знаменитому поэту и прозаику XVII века Ихара Сайкаку.

Мы разные, но равные: как с помощью цифровых инструментов сделать образование более инклюзивным

Образование — право каждого, а инклюзивное образование — способ дотянуться до тех, кто этого права был лишён. Современные цифровые технологии позволяют сделать знания доступными для всех, независимо от физических или ментальных особенностей. В статье разберём международные и российские примеры успешного применения инклюзивных технологий в школах и университетах.

Новый лидер среди LLM, «безопасный сверхинтеллект» от бывшего топ-исследователя OpenAI и конкуренты Sora

Большая языковая модель от Anthropic обходит последнюю GPT, компания бывшего ведущего исследователя OpenAI обещает «безопасный сверхинтеллект», у Sora появились новые конкуренты в генерации видео. Рассказываем, что произошло в мире ИИ за последние две недели.

Первая в СССР система французско-русского машинного перевода

В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально сменились несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.

Девушки, живущие в сети: женщины-хакеры на экране

23 года назад вышел фильм «Пароль “Рыба-меч”» — знаковая лента о хакерах с Джоном Траволтой. Это не только первый массовый фильм современности, целиком посвящённый хакерству, но и первое в XXI веке появление на экране хакерши. Мы решили вспомнить, когда женщины-хакеры впервые оказались на экране, как изменились их образы за это время и что объединяет их экранные воплощения.

Всемирная история картотек: движение к мировому стандарту

«‎Системный Блокъ»‎ продолжает публикацию цикла статей о том, как развивалась идея библиотечного каталога с XVI века и до наших дней. В третьей части исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов рассказывает, как каталожные карточки и библиотечные коды стали мировым стандартом и как картотеки повышают работоспособность философов.

Всемирная история картотек: как в эпоху Просвещения классифицировали знание

Как Линней придумал таксономию живых организмов, в чём польза игральных карт для каталогизации знания и сколько человек нужно, чтобы описать 30 тыс. книг? Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов продолжает рассказывать о том, как развивалась идея библиотечного каталога с XVI века и до наших дней, на страницах издания «Системный Блокъ».

Кибербуллинг в японских школах: что говорят данные о проблеме травли в Японии?

Онлайн-буллинг — проблема, с которой сталкиваются школьники по всему миру. Однако оценить её масштаб бывает сложно из-за отсутствия статистики. Министерство культуры Японии ежегодно публикует отчёты о случаях издевательств над учениками. Рассказываем, как японские власти собирают информацию об онлайн-буллинге и насколько распространена кибертравля в этой стране.

Новые открытые языковые модели, критика OpenAI от бывшего сотрудника и большой отчёт об опасностях общего ИИ

Новые открытые языковые модели, бывший сотрудник OpenAI раскритиковал компанию за безответственный подход к разработке, детальный отчёт о будущем общего ИИ и последствиях его появления. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Всемирная история картотек: как учёные и библиотекари пытались упорядочить всё

Информация бесполезна, если мы не знаем, как и где её найти. С появлением книгопечатания проблема упорядочивания выпущенных книг занимала учёных всё больше. Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов изучил, как развивалась идея библиотечного каталога с XVI века и до наших дней. В этом материале он рассказывает, зачем разрезать конспекты книг на полоски и как крючки в шкафу заменяли библиотекарям теги.

Музыкальная «энциклопедия русской жизни»: о чём пела русскоязычная поп-эстрада с 1990 по 2019 год

Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта обращала внимание постсоветская поп-музыка в первые 30 лет своего существования? Кого из исполнителей можно назвать главными «бытописателями»? Попробуем разобраться в этом материале.

Как устроено закулисье современного интернета: подборка интервью «Системного Блока»

Интернет — это параллельный мир, в котором возникают новые культуры, формируется новый язык, разворачиваются ожесточённые словесные битвы. Он виртуален, но происходящее в нём напрямую влияет на реальную жизнь каждого из нас. Политика, буллинг, скорбь, торговля, флирт, преступления и благотворительность — как этот видимый хаос определяет нашу жизнь? О всём этом читайте в подборке интервью «Системного Блока», где наши интернет-исследователи делятся наблюдениями и опытом.

Google встраивает языковую модель в поиск, Скарлетт Йоханссон обвиняет OpenAI, исследователи стали лучше понимать и контролировать ИИ

Google начала использовать свою языковую модель Gemini для суммаризации информации из поисковой выдачи. OpenAI подозревают в несанкционированном использовании голоса актрисы Скарлетт Йоханссон. Anthropic выпустили большое исследование интерпретируемости нейронных сетей. Рассказываем, что произошло в мире ИИ за прошедшие две недели.