منبع: Maxwell_joe/Pixabay
سلامت انسان ممکن است از بیتها و بایتهای علم کامپیوتر تقویت شود. به طور خاص، مدلهای یادگیری ماشینی هوش مصنوعی (AI) به کشف اسرار ژنوم انسان برای درمان بالقوه نجاتبخش بیماریهای ژنتیکی و پیچیده کمک میکنند. این هفته، دانشمندان دانشگاه کلمبیا و همکارانشان مطالعه ای را منتشر کردند که توسط همتایان بررسی شده بود طبیعت که یک مدل پایه هوش مصنوعی را معرفی می کند که قادر به پیش بینی فعالیت ژن در بسیاری از انواع مختلف سلول های انسانی است.
بیان ژن یک فرآیند ضروری است که در داخل سلول ها برای تبدیل اطلاعات ژنتیکی به محصولات قابل استفاده مانند پروتئین هایی که برای رشد، ساختار و عملکرد موجودات مهم هستند، اتفاق می افتد. این فرآیندی است که اطلاعات ژنتیکی رمزگذاری شده در DNA را به RNA و اسیدهای آمینه تبدیل می کند.
برای پیشبینی بیان ژن، توجه به تنظیم رونویسی بسیار مهم است. هنگامی که تنظیم رونویسی به درستی انجام نمی شود، الگوهای نامناسب بیان ژن اتفاق می افتد که می تواند منجر به بیماری شود. برای مثال، یک مطالعه متفاوت توسط ال و کانگ، محققین دانشگاه پرینستون، نشان میدهد که چگونه تنظیم رونویسی نقش کلیدی در پیشرفت و متاستاز تومور سرطان دارد.
رائول رابادان، نویسنده ارشد، دکترا، پروفسور دپارتمان مینویسد: «در این مطالعه، ما GET را معرفی میکنیم، یک مدل پایه پیشرفته که بهطور خاص برای رمزگشایی مکانیسمهای حاکم بر مقررات رونویسی در طیف گستردهای از انواع سلولهای انسانی مهندسی شده است. زیستشناسی سیستمها، انفورماتیک بیوپزشکی و جراحی و مدیر برنامه ژنومیک ریاضی و مرکز توپولوژی تکامل سرطان و ناهمگونی در دانشگاه کلمبیا، همراه با تیمی از شرکای تحقیقاتی.
در زمینههای ژنتیک مولکولی و ژنومیک، داشتن قابلیتهای پیشبینی برای تنظیم رونویسی مهم است زیرا نقش حیاتی در کنترل بیان ژن ایفا میکند. با این حال، به گفته محققان دانشگاه کلمبیا و همکاران پژوهشی آنها، مدلهای رونویسی هوش مصنوعی موجود فاقد استحکام هستند.
محققان نوشتند: «مدلهای محاسباتی رونویسی فاقد قابلیت تعمیم برای برونیابی دقیق به انواع و شرایط سلولی غیرقابل مشاهده هستند».
در یادگیری ماشینی هوش مصنوعی، اصطلاح «تعمیمپذیری» به توانایی یک الگوریتم هوش مصنوعی برای پیشبینی دادههای کاملاً جدیدی که قبلاً در معرض آن قرار نگرفته است، اشاره دارد. هرچه یک الگوریتم هوش مصنوعی قویتر باشد، بهتر میتواند روی دادههای جدید و دیده نشده قبلی پیشبینی کند.
مقاله دانشگاه کلمبیا اشاره میکند که مدل ترانسفورماتور هوش مصنوعی Enformer، و همچنین مدلهای شبکه عصبی کانولوشن عمیق Basenji2 و Expecto، پیشبینیهایی را بر روی انواع سلولهای آموزشی پس از تنظیم دقیق انجام میدهند، بنابراین از نظر طراحی، کاربرد و توانایی تعمیم محدودی دارند.
چگونه با این چالش مقابله کنیم؟ دانشمندان به پیشرفتهای اخیر هوش مصنوعی با مدلهای جدید پایه نگاه میکنند.
محققان نوشتند: «با پیشآموزش گسترده در مجموعه دادههای گسترده و متنوع، مدلهای پایه درک کلی از دادههای آموزشی خود را ارائه میدهند، که براساس آن میتوان سازگاریهای تخصصی را برای رسیدگی به وظایف یا چالشهای خاص ایجاد کرد.»
در علوم کامپیوتر، مدلهای پایه هوش مصنوعی، شبکههای عصبی بزرگ، مولد و عمیق هستند که با استفاده از مقادیر انبوهی از دادههای گسترده و بدون برچسب از قبل آموزش داده شدهاند که میتوانند برای کارهای مختلف، نه فقط برای یک هدف، استفاده شوند.
نویسندگان مطالعه نوشتند: «اخیراً، مدلهای پایه مانند GPT-4 و ESM-2 به عنوان یک رویکرد تحولآفرین ظاهر شدهاند.
GPT-4 OpenAI یک مدل هوش مصنوعی به سبک ترانسفورماتور است که می تواند با تصاویر و متن (چند وجهی) به عنوان اعلان به منظور تولید خروجی متن تراکنش کند. مدل مقیاس تکاملی (ESM-2) که توسط محققان تیم تحقیقاتی پروتئین هوش مصنوعی متا بنیادی (FAIR) ایجاد شده است، یک مدل زبان بزرگ از پیش آموزش دیده برای پروتئین ها است.
دانشمندان سایر مطالعات تحقیقاتی ژنومی را با استفاده از مدلهای پایه هوش مصنوعی مانند scGPT، یک ترانسفورماتور مولد برای چند omics بر اساس دادههای توالییابی تک سلولی که بر روی دادههای بیش از ۳۳ میلیون سلول، scFoundation (همچنین به عنوان xTrimoscFoundation شناخته میشود، از قبل آموزش داده شده است) برجسته میکنند.αیک ترانسفورماتور برای تجزیه و تحلیل تک سلولی که بر روی بیش از ۵۰ میلیون داده رونوشت تک سلولی انسانی از قبل آموزش داده شده است، و Geneformer، یک مدل ترانسفورماتور که روی تقریباً ۳۰ میلیون رونوشت تک سلولی از قبل آموزش داده شده است.
چیزی که این مطالعه کنونی را از سایر مطالعات متمایز می کند این است که دانشمندان دانشگاه کلمبیا و شرکای تحقیقاتی آنها عمداً مدل ترانسفورماتور هوش مصنوعی خود را با استفاده از داده های بافت طبیعی به جای سلول های انسانی بیمار آموزش دادند. الگوریتم GET ویژگی های مربوط به پیش بینی بیان ژن را از مقادیر انبوه داده های آموزشی متشکل از بیش از ۱.۳ میلیون سلول انسانی آموخت.
به گفته محققان، هنوز یک مدل پایه هوش مصنوعی برای درک دینامیک کروماتین در رونویسی ایجاد نشده است. کروماتین از DNA و پروتئین هایی تشکیل شده است که ساختارهایی را تشکیل می دهند که حاوی ژن هایی به نام کروموزوم هستند که در هسته سلولی گیاهان، حیوانات و افراد قرار دارند. ۴۶ کروموزوم در ۲۳ جفت در داخل هر سلول یک بدن معمولی انسان وجود دارد که نیمی از آنها از پدر و نیمی دیگر از مادر به ارث می رسد. کروموزوم های اتوزومال جفت کروموزوم های ۱ تا ۲۲ هستند. ۲۳rd جفت کروموزوم جنسی است که تعیین می کند انسان در بدو تولد مذکر (XY) یا ماده (XX) باشد. کروموزوم ها مهم هستند زیرا داده های ارثی را از یک نسل سلولی به نسل دیگر منتقل می کنند.
محققان گزارش دادند: «به طور انحصاری با تکیه بر دادههای دسترسی کروماتین و اطلاعات توالی، GET به دقت در سطح تجربی در پیشبینی بیان ژن حتی در انواع سلولهایی که قبلاً دیده نشده بودند، دست مییابد».
دانشمندان یک مدل هوش مصنوعی قویتر برای رونویسی ایجاد کردند که میتواند با دقت بالایی فعالیت ژن را در انواع سلولهای جدیدی که قبلاً ندیده است، پیشبینی کند. با استفاده از GET، آنها یک کاتالوگ عمومی از تعاملات فاکتورهای رونویسی و تنظیم ژن با ویژگی نوع سلولی ایجاد کردند.
آنها به طور تجربی در آزمایشگاه GET تأیید کردند در سیلیکو پیشبینی ژن PAX5، یک فاکتور رونویسی که در توسعه لنفوسیت B (سلول B) نقش دارد و اغلب در لوسمی لنفوبلاستیک حاد پیشساز سلول B (B-ALL)، یک سرطان شایع کودکان، جهش مییابد. سلول های B آنتی بادی ایجاد می کنند، نوعی پروتئین که به پاتوژن هایی مانند ویروس ها، انگل ها و باکتری ها یا مواد خارجی متصل می شود تا آنها را خنثی کند.
“با استفاده از PAX5 بهعنوان یک مطالعه موردی، ما کاربرد کاتالوگ را در شناسایی انواع عملکردی در حوزههای پروتئینی نامنظم که قبلاً مطالعه آنها دشوار بود، نشان دادیم.»
با این پیشرفت، محققان یک ابزار هوش مصنوعی جدید برای کمک به پیش بینی فعالیت ژن در طیف گسترده ای از انواع مختلف سلول های انسانی دارند که ممکن است تحقیقات برای اختلالات ژنتیکی و بیماری های پیچیده مانند اختلالات عصبی، اختلالات رشدی، سندرم ها، خودایمنی، بیماری های متابولیک، قلبی عروقی را تسریع بخشد. بیماری ها و سرطان در آینده ای نه چندان دور.
کپی رایت © ۲۰۲۵ Cami Rosso کلیه حقوق محفوظ است.