10 слов машинного обучения
Что такое языковые модели, как их обучают и зачем нужна тестовая выборка? Объясняем основные термины машинного обучения.
Не только филологов и юристов волнует проблема авторства. Живые организмы тоже могут списывать друг у друга — прямо из генетического кода! Рассказываем, как и зачем биологи ищут в геномах фрагменты ДНК, заимствованные у других организмов, и какие компьютерные алгоритмы для этого используются.
Можно ли моделировать исторические процессы при помощи баз данных и математических инструментов? Что даёт такое моделирование и каковы его границы? Почему после распада СССР смертность в России и Эстонии была гораздо выше, чем в Грузии, Армении или Узбекистане? Какие факторы позволяют предсказать социальный взрыв и почему повышение качества жизни может привести к революции? Об этом в интервью «Системному Блоку» рассказал доктор исторических наук Андрей Коротаев.
Как бы выглядела школа «Системного Блока» и чему бы в ней учили? К началу учебного года мы составили альтернативное расписание и подобрали материалы.
Можно ли узнать, чем болели люди в каменном веке, изучив остатки ДНК из их зубов? Да, если на помощь придут палеогенетика в связке с биоинформатикой. Палеогенетика изучает древнюю ДНК, чтобы понять, куда и откуда мигрировали древние люди, какие возбудители вызывали эпидемии, какие виды гибризовались, чтобы получился современный человек. Об этих подходах рассказывает Андрей Макашов, преподаватель специалитета в Высшей школе биомедицинских систем и технологий петербургского Политеха.
Куда развивается искусственный интеллект и какие новые умения он приобретет в ближайшем будущем? Что делать с тем, что коммерческие продукты вроде ChatGPT созданы на основе украденной интеллектуальной собственности? Есть ли внутри современных нейросетевых моделей что-то вроде физической модели мира? (Спойлер: кажется, нет.) Об этом «Системный Блокъ» поговорил с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA.
Как исследователи пишут историю интернета? Почему глобальная сеть вытеснила национальные проекты вроде французского Minitel? Почему достижения советской кибернетики не привели к созданию работающих сетей? Кто стоял у истоков Рунета и куда Рунет движется сегодня? Обо всём этом «Системному Блоку» рассказал Леонид Юлдашев, социолог, исследователь истории интернета, в прошлом координатор клуба любителей интернета и общества.
В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально сменились несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.
Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта обращала внимание постсоветская поп-музыка в первые 30 лет своего существования? Кого из исполнителей можно назвать главными «бытописателями»? Попробуем разобраться в этом материале.
Интернет — это параллельный мир, в котором возникают новые культуры, формируется новый язык, разворачиваются ожесточённые словесные битвы. Он виртуален, но происходящее в нём напрямую влияет на реальную жизнь каждого из нас. Политика, буллинг, скорбь, торговля, флирт, преступления и благотворительность — как этот видимый хаос определяет нашу жизнь? О всём этом читайте в подборке интервью «Системного Блока», где наши интернет-исследователи делятся наблюдениями и опытом.
Как машины могут учиться принимать решения на основе опыта подобно людями и животным? Изучим принципы обучения с подкреплением — подход, который позволяет компьютеру находить оптимальные стратегии действий в разнообразных сценариях. Эта статья погрузит вас в ключевые концепции и покажет, что стоит за простой идеей «учиться на своих ошибках».
Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом в интервью изданию «Системный Блокъ» рассказал Игорь Мельчук, лингвист, заслуженный профессор Монреальского университета, один из основоположников российской математической лингвистики и Московской семантической школы.
В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем точных методов в лингвистике и машинного перевода.
Историю можно изучать не только по летописям или книгам, но и по частным источникам, или эго-документам: письмам, дневникам, записным книжкам. Рассказываем об эго-документах и связанных с ними цифровых исследованиях.
Что значит «языковая модель галлюцинирует»? Как сделать её ответы более точными и фактологически верными? Умеет ли нейросеть гуглить? Может ли нейросеть выдумывать несуществующие факты? Отвечаем в нашем материале о RAG (Retrieval Augmented Generation) — методе, позволяющем «подключать» языковые модели к внешним источникам информации.
Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.
Мы собрали лучшие материалы «Системного Блока», посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.
Assassin’s Creed — серия игр, сюжет которых построен вокруг многовековой борьбы двух тайных организаций — ассасинов и тамплиеров. Прототипом ассасинов послужили члены средневекового мусульманского течения исмаилитов-низаритов. В нашем материале рассказываем, как видеоигры адаптируют исторические реалии под свой формат.
Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.
Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?
OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.
Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Регулярные выражения — это классика компьютерных методов обработки текстовых данных, они используются гораздо дольше, чем все новомодные методы, связанные с машинным обучением и нейросетями. Но до сих пор многие задачи проще и лучше всего решаются именно регулярками!
Random forest (он же «случайный лес») — это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли — алгоритмы, сочетающие сразу несколько моделей. Рассказываем об одном из самых популярных ансамблей — random forest.
Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю
Сетевой анализ ― это метод исследования, с помощью которого можно визуализировать и исследовать связи между людьми в сообществе, персонажами в художественном произведении, животными в стае и вообще любыми объектами. Из чего состоит сеть как модель? Какие параметры у них есть и о чём они говорят? Объясняем основы сетевого анализа на простых примерах.
Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.
Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.
Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.
Может ли компьютер сравнивать объекты? Как сравнение объектов может быть полезно для решения задач классификации и регрессии (например, предсказания стоимости квартир)? И причём тут «проклятие размерности»? Узнаем в новом материале «Системного Блока».
Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так привлекательны? Обо всём этом «Системный Блокъ» поговорил с антропологом Александрой Архиповой.
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.
Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.
Почему в онлайн-среде люди ведут себя более агрессивно? Можно ли обрести бессмертие с помощью «цифры»? В чём феномен коллективного интернет-горевания? Об этом в интервью изданию «Системный Блокъ» рассказала Оксана Мороз, культуролог, исследователь цифровой среды, академический руководитель образовательной программы НИУ ВШЭ «Практики кураторства в современном искусстве».
Еще со времен второй промышленной революции человек забеспокоился, что безэмоциональная машина займет его место и на работе, и в остальных сферах жизни. Страхи и надежды людей по поводу роботов отражались и в кинематографе. Разберемся, как менялась репрезентация искусственного интеллекта в кино.
«Слово Пацана. Кровь на асфальте» Жоры Крыжовникова стал самым обсуждаемым российским сериалом года. В одном только «Яндексе» его с момента выхода искали 60 миллионов раз. «Системный Блокъ» разобрался, как сериал о «казанском феномене» стал феноменом интернета и породил вал запросов в поисковиках.
Стилометрия — количественный метод определения авторства, который проверен на десятках современных языков. А что там с языками древними? Историк философии Ольга Алиева исследовала, как работает Дельта и другие стилометрические меры на древнегреческих текстах. Разбираемся вместе с ней, может ли стилометрия отличить Аристотеля от Платона, а Геродота от Плутарха.
Какие советские ученые стоят у истоков исторической информатики? Как математические методы позволяют моделировать исторические процессы? Как складывались отношения российских исторических информатиков с международным сообществом? Как они взаимодействуют с сообществом «цифровых гуманитариев» (Digital Humanities)?
Может ли нейросеть заменить писателя? И да и нет. Есть творческие задачи, с которыми современные языковые модели справляются легко: например, стилизовать сказку под триллер, а трагедию Шекспира — под дворовую байку. Но есть многое, в чем им нужна помощь или хотя бы руководство человека. Разбираемся, какие литературные задачи можно делегировать ChatGPT, а какие пока не стоит.
Новостей о том, что уже умеет искусственный интеллект и какие профессии из-за него обречены, предостаточно. Гораздо интереснее выяснять, чего он не может. Ранее мы уже писали о том, как ChatGPT выдумывает несуществующие произведения Льва Толстого. Теперь авторы «Системного Блока» провели эксперимент, чтобы выяснить, где границы возможностей нейросетей для генерации изображений (Midjourney, DALL-E, Kandinsky), и обнаружили у них проблемы с образным и абстрактным мышлением
От библиотечного каталога к машиночитаемым текстовым данным для компьютерного анализа: разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов
Как использовать нейронные сети для распознавания лиц? Может ли нейросеть определить, какие признаки в данных значимые, а какие просто шум? Что такое латентное пространство и зачем оно нужно? Отвечаем на все эти вопросы в нашем материале про один из типов нейросетей — автоэнкодер
В психологии и психолингвистике айтрекинг — давно известная и популярная технология. Рассмотрим, как она появилась и почему первым испытуемым приходилось терпеть тупую иглу на веке или присоску с радиоантенной на глазу. Но не пугайтесь: сейчас для исследования движений глаз применяют бесконтактные технологии. И об инвазивных методах, и о новых способах айтрекинга расскажем в нашем материале
Нейросеть научилась давать оценку картинам китайских художников, как профессиональный искусствовед. Рассказываем простыми словами, как это работает и причём здесь пятьдесят оттенков серого
Статья Агаты Холобут и Яна Рыбицкого The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино и лексикой диалогов: с помощью стилометрии и сентимент-анализа авторы исследуют 178 фильмов из разных эпох. Рассказываем, что же у них получилось
Как связаны имена Блока и Гумилёва с историей крупнейшей коллекции этнографических аудиозаписей? Когда исполнители перестали бояться раструба фонографа? Что происходит, если идеология вмешивается в научный процесс? Как происходит цифровизация аудио, записанного некогда на восковые валики? Об этом в интервью «Системному Блоку» рассказала Светлана Подрезова, заведующая Фонограммархивом Пушкинского Дома (ИРЛИ РАН).
Проект Cultural heritage in action собирает хорошие решения по работе с культурным наследием в Европе и открывает доступ к получившемуся каталогу.
Владимир Набоков известен тем, что писал и на русском, и на английском. Сможет ли компьютер распознать его оригинальный стиль? Этот вопрос исследовал цифровой филолог Борис Орехов. О том, как стилометрия при помощи статистики справляется с филологическими задачами – в материале «Системного Блока».
Малыми языками интересуются одновременно и учёные, и языковые активисты, и (иногда) государство. «Системный Блокъ» подготовил интервью с Михаилом Даниэлем — исследователем малых языков, социолингвистом и участником проектов ВАНК и Multidagestan. Мы обсудили, каким языкам грозит вымирание.
«Любой обманчив звук», — пел Александр Васильев. И как же он прав! Всё, что мы слышим каждый день — от надоедливых уведомлений до сигнала светофоров, – содержит целый пласт коллективных и индивидуальных значений, редко совпадающих друг с другом. Воспринимаемый обычно как фон, звук на самом деле формирует отношение к месту и влияет на воспоминания о событиях. Изучением этого и занимаются Sound Studies.
Научный и экологический журналист Ольга Добровидова — о разнице между научными журналистами и научными коммуникаторами, о конфликте интересов между научным сообществом и общественным благом, а также о том, как вырос запрос на медицинскую журналистику.
Современный мир захлестнула цифровизация. Это не обошло стороной, в том числе, и институции культурного наследия, которые начали массово переводить свои коллекции в цифровой формат. Рассказываем, что и зачем оцифровывают библиотеки, музеи, архивы, а также каким образом культурное наследие обрабатывается компьютерной техникой.
Проблема домашнего насилия — одна из наиболее острых социальных проблем в современной России. А вопрос о достоверной статистике по этой теме — один из самых болезненных. Разбираемся в том, кто становится авторами насилия, кто от него страдает и куда обращаться.
Не секрет, что археологические раскопки нередко влекут за собой гибель памятника. Давняя мечта археологов — изучать памятники, не разрушая их. Сохранить культурный слой помогают устройства, которые «просветили» бы земную толщу. Они появились в середине XX века. Рассказываем о том, как применяется в археологии магнитометр и что такое магнитометрическая разведка.
Исторические игры регулярно попадают в десятку самых продаваемых видеоигр в разных странах, а опирающаяся на всемирную историю Assassin's Creed — одна из самых продаваемых франшиз видеоигр всех времен. Разбираемся, как видеоигры транслируют историю и почему интерес к ним не угасает.
В июне 2021 года команда «Системного блока» презентовала проект открытого цифрового архива отправленных почтовых открыток. Имя этого проекта — «Пишу тебе». Два года спустя мы хотим рассказать про интересные открытки, которые мы собрали, и обозначить планы на будущее.
Наверняка вы когда-нибудь слышали о группе «Король и Шут». Даже, если вы не преданный фанат, то мы почти уверены, что, узнав строки «Разбежавшись, прыгну со скалы», вы подхватите мотив и подпоете: «Вот я был, и вот меня не стало». К тому же, недавний релиз сериала о группе снова оживил интерес слушателя к творчеству самых известных панков России. «Системный блокъ», вдохновившись сериалом, решил не только переслушать старые хиты, но и количественными методами изучить творчество «Короля и Шута».
Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.
Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.