Добавить новость
smi24.net
News in English
Июнь
2024

NASA-IBM Collaboration Develops INDUS Large Language Models for Advanced Science Research

0

4 min read

NASA-IBM Collaboration Develops INDUS Large Language Models for Advanced Science Research

Named for the southern sky constellation, INDUS (stylized in all caps) is a comprehensive suite of large language models supporting five science domains.
NASA

By Derek Koehl

Collaborations with private, non-federal partners through Space Act Agreements are a key component in the work done by NASA’s Interagency Implementation and Advanced Concepts Team (IMPACT). A collaboration with International Business Machines (IBM) has produced INDUS, a comprehensive suite of large language models (LLMs) tailored for the domains of Earth science, biological and physical sciences, heliophysics, planetary sciences, and astrophysics and trained using curated scientific corpora drawn from diverse data sources.

INDUS contains two types of models; encoders and sentence transformers. Encoders convert natural language text into numeric coding that can be processed by the LLM. The INDUS encoders were trained on a corpus of 60 billion tokens encompassing astrophysics, planetary science, Earth science, heliophysics, biological, and physical sciences data. Its custom tokenizer developed by the IMPACT-IBM collaborative team improves on generic tokenizers by recognizing scientific terms like biomarkers and phosphorylated. Over half of the 50,000-word vocabulary contained in INDUS is unique to the specific scientific domains used for its training. The INDUS encoder models were used to fine tune the sentence transformer models on approximately 268 million text pairs, including titles/abstracts and questions/answers.

By providing INDUS with domain-specific vocabulary, the IMPACT-IBM team achieved superior performance over open, non-domain specific LLMs on a benchmark for biomedical tasks, a scientific question-answering benchmark, and Earth science entity recognition tests. By designing for diverse linguistic tasks and retrieval augmented generation, INDUS is able to process researcher questions, retrieve relevant documents, and generate answers to the questions. For latency sensitive applications, the team developed smaller, faster versions of both the encoder and sentence transformer models.

Validation tests demonstrate that INDUS excels in retrieving relevant passages from the science corpora in response to a NASA-curated test set of about 400 questions. IBM researcher Bishwaranjan Bhattacharjee commented on the overall approach: “We achieved superior performance by not only having a custom vocabulary but also a large specialized corpus for training the encoder model and a good training strategy. For the smaller, faster versions, we used neural architecture search to obtain a model architecture and knowledge distillation to train it with supervision of the larger model.”

NASA Chief Scientist Kate Calvin gives remarks in a NASA employee town hall on how the agency is using and developing Artificial Intelligence (AI) tools to advance missions and research, Wednesday, May 22, 2024, at the NASA Headquarters Mary W. Jackson Building in Washington. The INDUS suite of models will help facilitate the agency’s AI goals.
NASA/Bill Ingalls

INDUS was also evaluated using data from NASA’s Biological and Physical Sciences (BPS) Division. Dr. Sylvain Costes, the NASA BPS project manager for Open Science, discussed the benefits of incorporating INDUS: “Integrating INDUS with the Open Science Data Repository  (OSDR) Application Programming Interface (API) enabled us to develop and trial a chatbot that offers more intuitive search capabilities for navigating individual datasets. We are currently exploring ways to improve OSDR’s internal curation data system by leveraging INDUS to enhance our curation team’s productivity and reduce the manual effort required daily.”

At the NASA Goddard Earth Sciences Data and Information Services Center (GES-DISC), the INDUS model was fine-tuned using labeled data from domain experts to categorize publications specifically citing GES-DISC data into applied research areas. According to NASA principal data scientist Dr. Armin Mehrabian, this fine-tuning “significantly improves the identification and retrieval of publications that reference GES-DISC datasets, which aims to improve the user journey in finding their required datasets.” Furthermore, the INDUS encoder models are integrated into the GES-DISC knowledge graph, supporting a variety of other projects, including the dataset recommendation system and GES-DISC GraphRAG.

Kaylin Bugbee, team lead of NASA’s Science Discovery Engine (SDE), spoke to the benefit INDUS offers to existing applications: “Large language models are rapidly changing the search experience. The Science Discovery Engine, a unified, insightful search interface for all of NASA’s open science data and information, has prototyped integrating INDUS into its search engine. Initial results have shown that INDUS improved the accuracy and relevancy of the returned results.”

INDUS enhances scientific research by providing researchers with improved access to vast amounts of specialized knowledge. INDUS can understand complex scientific concepts and reveal new research directions based on existing data. It also enables researchers to extract relevant information from a wide array of sources, improving efficiency. Aligned with NASA and IBM’s commitment to open and transparent artificial intelligence, the INDUS models are openly available on Hugging Face. For the benefit of the scientific community, the team has released the developed models and will release the benchmark datasets that span named entity recognition for climate change, extractive QA for Earth science, and information retrieval for multiple domains. The INDUS encoder models are adaptable for science domain applications, and the INDUS retriever models support information retrieval in RAG applications.

A paper on INDUS, “INDUS: Effective and Efficient Language Models for Scientific Applications,” is available on arxiv.org.

Learn more about the Science Discovery Engine here.

Share

Details

Last Updated
Jun 25, 2024

Related Terms








Группа компаний «ДИАКОН» провела успешную ежегодную конференцию для партнеров в Москве

В районе Перово идёт набор в ансамбль народных танцев

Из 90-х в люкс: Татьяна Буланова подняла гонорар до 2 миллионов из-за любви зумеров

Специалисты «ДИАКОН» установили современные анализаторы Lifotronic eCL-8000 в ведущих медицинских учреждениях России


First confirmed death during Trump ICE raid is a farmworkers at a California cannabis facility

Son Of British Boxing Legend Retires From The Sport Aged Just 24: “Won’t Be Fighting Again”

ICE is 'supercharging detention' with 'flagrantly unlawful' policy: lawyers

Dow futures sink as Trump keeps pushing tariffs while White House suggests Powell’s job could be at risk


Каршеринг BelkaCar запустил новый сезон проекта «Умные путешествия»

Ольга Романив: как вести себя с мужчиной, который нравится

Пора пригласить певца A.SERGIO для участия в теле- и радиопрограммах, подкастах и шоу!

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки


I've swapped modern live service games for a browser game that's been running since 2009

The Expanse RPG's developers are 'humbled' by comparisons to BioWare's heyday, but don't expect it to be a straight Mass Effect clone: 'We make our story a little bit differently'

MMORPG Lord Nine: Infinite Class выпустят в Юго-Восточной Азии 31 июля

Гайд на Fuqiu из Etheria Restart: навыки, PvE-билд, расклад в PvP и дубликаты



Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Вот билет на контент, на эксплойт билетов нет

Пора пригласить певца A.SERGIO для участия в теле- и радиопрограммах, подкастах и шоу!


Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Вторичное жилье начало дешеветь

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Татарстан вошел в число лидеров по количеству заявок на конкурс брендов «Знай наших»


Раскрыто расписание Олимпийских игр 2028 года в Лос-Анджелесе.

Москва прощается с жарой: жителей столицы предупредили о ливнях и грозах

«Ηичeгο οб Apмeнии бeɜ Apмeнии» – Зaпaд οбeщaeт Εpeвaну тο жe, чтο и κοгдa-тο Κиeву

Из трёх музеев Томской области томичи отправили по почте 500 «тёплых открыток»


Мирра Андреева вошла в топ-5 мирового рейтинга WTA.

Медведев стал обладателем Кубка короля в Испании.

Кудерметова стала первой россиянкой, выигравшей парный разряд Уимблдона с 2017 года

Теннистка Кудерметова впервые в карьере выиграла Уимблдон в парном разряде


В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

На озере в Красноармейском округе пропала женщина

Франция предупредила о риске крупного конфликта в Европе к 2030 году

Андрей Воробьев рассказал об открытии новых школ в Подмосковье к 1 сентября


Музыкальные новости

Музыканты поделились чувствами после прощального концерта Оззи Осборна

«У нее есть компания». Юрий Лоза раскрыл подноготную Орбакайте

Валерия и Иосиф Пригожин, Мари Краймбрери, Александр Рогов и другие на концерте Zivert

Прокуратура попросила запретить песню группы «Порнофильмы» «Выключите гимн»


Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Пора пригласить певца A.SERGIO для участия в теле- и радиопрограммах, подкастах и шоу!

Вот билет на контент, на эксплойт билетов нет


Ким Чен Ын: позиции РФ и КНДР «по всем стратегическим вопросам» совпадают

Сделка против Путина: Что предложила Канада Пригожину за снятие санкций. Правду скрывали годами

Павел Воля о «Матче года»: «Радостно повстречать старых товарищей — с Овечкиным и Малкиным не виделись сто лет, Ковальчук здесь. Мне все понравилось, особенно счет»

В Подмосковье за один вечер молнии три раза ударили в дома


Мобильный интернет перестанут массово отключать в России

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

КАМАЗ-4280 начал тестовую эксплуатацию на маршруте в Подмосковье

Вскрытие без последствий – сервис «Спас-замков»


В США сделали смелое заявление в отношении Путина.

Посол Акира Муто: Япония будет приветствовать возможную встречу Путина и Трампа

Путин отметил успех школьников на Международной химической олимпиаде.

В РФ раскрыли замысел Трампа после его попыток шантажировать Путина




Врач-трихолог Мадина Осман: как часто можно делать пересадку волос

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Травмированного на репетиции в цирке Москвы акробата выписали из больницы

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе


ВСУ атаковали дронами женщин под Сумами: Били за надпись "Мы русские"


Раскрыто расписание Олимпийских игр 2028 года в Лос-Анджелесе.

"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ

«Турбозавры» поучаствовали в Дне московского транспорта

Травмированного на репетиции в цирке Москвы акробата выписали из больницы


Лукашенко встретился в Минске с делегацией Петербурга для обсуждения сотрудничества

Лукашенко заявил о необходимости проверки чиновников за манипуляции с ценами.

«Нам в Минске надо учиться». Лукашенко похвалил Беглова за зимнюю уборку Петербурга

Лукашенко предложил Петербургу ремонтировать всю белорусскую технику


Сергей Собянин: роботы и электромашины на страже московских улиц

Сергей Собянин: В Москве появятся три новых пешеходных моста к 2027 году


РЭО проведет акселератор для экоцентров на базе Плехановского университета

ГК «АСНА» внедрила систему продвинутой аналитики «Дельта BI»

Позднякова: температура в Москве останется выше климатической нормы

Губернатор Андрей Бочаров принимает участие в образовательной программе Сбера


(НЕ)СЕКРЕТНУЮ СЛУЖБУ США ПОДОЗРЕВАЮТ В ПОСТАНОВКЕ СЦЕНЫ ПОКУШЕНИЯ НА ТРАМПА. СЕНСАЦИЯ! Новости. В.В. Путин, Дональд Трамп. Россия, США, Европа могут улучшить отношения и здоровье общества!

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

Молния убила трех человек на пляже в России

Франция предупредила о риске крупного конфликта в Европе к 2030 году


Защищённый планшет Saotron RT-W11J на базе ОС Windows10

Алтайский край оказался в числе регионов-аутсайдеров по доступности вторичного жилья

В городе Барнауле стартовал третий этап смотра-конкурса на звание "Лучшее звено газодымозащитной службы" среди Главных управлений МЧС России

Фестиваль духовых оркестров пройдет в трех городах Поморья по случаю Дня ВМФ


Феодосия получила 150 миллионов на ремонты дворов - где начнут работы

Под Симферополем горят десятки гектаров леса

Десятки улиц Симферополя остались без света 14 июля

Симферополь частично остался без света утром 14 июля


Синоптик Леус: 45 процентов месячной нормы осадков выпало в столичном регионе

Проверить стыковку и показать «разрядку»: полвека назад началась советско-американская миссия «Союз» — «Аполлон»

В Городском округе Пушкинский в образовательных комплексах полным ходом идёт подготовка к новому учебному году

В Видном арестовали мать мальчика, которого отчим избил битой














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *