Un nouvel article sur un modèle cellulaire de 27 milliards de paramètres ne concerne pas seulement la biologie. C'est de l'ingénierie de données et un plan pour l'avenir de l'IA appliquée. L'équipe a construit un modèle de 27 milliards de paramètres qui a fait une découverte scientifique.Un nouvel article sur un modèle cellulaire de 27 milliards de paramètres ne concerne pas seulement la biologie. C'est de l'ingénierie de données et un plan pour l'avenir de l'IA appliquée. L'équipe a construit un modèle de 27 milliards de paramètres qui a fait une découverte scientifique.

Google et Yale ont transformé la biologie en langage : voici pourquoi c'est révolutionnaire pour les développeurs

Un nouvel article sur un modèle cellulaire de 27 milliards de paramètres ne concerne pas seulement la biologie. C'est de l'ingénierie de données et un plan pour l'avenir de l'IA appliquée.

\ Si vous êtes un ingénieur en IA, vous devez arrêter ce que vous faites et lire la nouvelle prépublication C2S-Scale issue d'une collaboration entre Yale et Google.

\ En surface, cela ressemble à un article de bioinformatique de niche. En réalité, c'est l'un des manifestes architecturaux les plus importants pour l'IA appliquée que j'ai vus depuis des années. L'équipe a construit un modèle de 27 milliards de paramètres qui n'a pas seulement analysé des données biologiques — il a fait une découverte scientifique nouvelle, validée en laboratoire concernant une thérapie potentielle contre le cancer.

\ En tant que constructeur, je suis moins intéressé par le médicament spécifique qu'ils ont trouvé et plus obsédé par comment ils l'ont trouvé. Leur méthodologie est un manuel que chaque architecte et ingénieur en IA doit comprendre.

Le problème fondamental : les modèles d'IA détestent les tableurs

Le défi central dans l'application des LLM aux données scientifiques ou d'entreprise est que ces modèles sont entraînés sur le langage, mais nos données vivent dans des tableurs, des bases de données et des tableaux massifs à haute dimension. Essayer de faire comprendre à un LLM une matrice brute d'expression génique scRNA-seq est un cauchemar.

\ Pendant des années, l'approche standard a été de construire des architectures sur mesure pour la science - des IA qui tentent de greffer des capacités de langage naturel à un modèle conçu pour des données numériques. C'est lent, coûteux, et vous perdez les lois de mise à l'échelle massives et les innovations rapides de l'écosystème LLM grand public.

\ L'intuition brillante de l'équipe C2S-Scale a été de renverser le problème.

Le coup de maître architectural : Cell2Sentence

Le génie du framework Cell2Sentence (C2S) réside dans sa simplicité presque absurde. Ils prennent le profil d'expression génique complexe et numérique d'une seule cellule et le transforment en une simple chaîne de texte.

\ Comment ? Ils classent chaque gène dans la cellule par son niveau d'expression, puis écrivent simplement les noms des K premiers gènes dans l'ordre.

\ L'état biologique complexe d'une cellule, comme : \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Devient une phrase cellulaire simple et lisible : \n GeneB GeneC GeneA …

\ C'est un acte profond d'ingénierie de données. Avec ce seul mouvement, ils ont :

  1. Éliminé le besoin d'architectures personnalisées : Ils peuvent maintenant introduire ce langage biologique directement dans une architecture Transformer standard comme Gemma ou Llama. Ils profitent gratuitement de toute la vague de la communauté de recherche LLM.
  2. Débloqué la multimodalité : Leur corpus d'entraînement n'était pas seulement des phrases cellulaires. Ils pouvaient désormais y mélanger les résumés réels des articles scientifiques d'où provenaient les données. Le modèle a appris à corréler le langage de la cellule avec le langage du scientifique dans une seule session d'entraînement unifiée.
  3. Permis un véritable codage d'ambiance pour la biologie : Le modèle final ne se contente pas de classifier les choses. Il peut prendre une invite comme Générer une cellule T CD8+ pancréatique, et il générera une nouvelle phrase cellulaire synthétique représentant l'expression génique d'une cellule qui n'a jamais existé.

Le résultat : Industrialiser la découverte scientifique

Cette architecture brillante est ce qui a permis l'application phare de l'article. L'équipe a effectué un criblage virtuel pour trouver un médicament qui pourrait augmenter la visibilité d'une cellule cancéreuse pour le système immunitaire.

\ Ce n'était pas une simple requête de base de données. C'était une expérience in silico. Le modèle a prédit qu'un médicament spécifique, le silmitasertib, aurait cet effet, mais uniquement dans le contexte spécifique de la signalisation interféron.

\ Ils ont apporté cette hypothèse nouvelle, générée par l'IA, à un véritable laboratoire, ont réalisé les expériences physiques, et ont prouvé qu'elle était correcte.

\ C'est le nouveau paradigme. L'IA n'a pas simplement trouvé une réponse dans ses données d'entraînement. Elle a synthétisé sa compréhension du langage biologique et du langage humain pour générer une nouvelle connaissance non évidente et finalement vraie. C'est un système pour industrialiser la sérendipité.

Ce que cela signifie pour les constructeurs

L'article C2S-Scale est un guide de terrain sur la façon de construire des systèmes d'IA à fort impact dans n'importe quel domaine complexe et non textuel, de la finance à la logistique en passant par la fabrication.

  1. Arrêtez de plier le modèle. Commencez à traduire vos données. Le travail le plus important n'est plus de concevoir un réseau neuronal personnalisé. C'est le travail créatif et stratégique de trouver une représentation Data-to-Sentence pour votre domaine spécifique. Quel est le langage de votre chaîne d'approvisionnement ? Quelle est la grammaire de vos données financières ?
  2. La multimodalité est une exigence, pas une fonctionnalité. La véritable puissance a été débloquée lorsqu'ils ont combiné les phrases cellulaires avec les résumés des articles. Vos systèmes d'IA devraient être entraînés non seulement sur vos données structurées, mais aussi sur les connaissances humaines non structurées qui les entourent — les journaux de maintenance, les tickets de support, les mémos stratégiques.
  3. L'objectif est un générateur d'hypothèses, pas une machine à réponses. Les systèmes d'IA les plus précieux du futur ne seront pas ceux qui peuvent répondre à ce qui est déjà connu. Ce seront ceux qui, comme C2S-Scale, peuvent générer des hypothèses nouvelles et testables qui repoussent les limites du possible.

Construisons-le : Un exemple de Data-to-Sentence

Tout cela semble abstrait, alors rendons-le concret. Voici un exemple Python super-simplifié du concept "Data-to-Sentence", appliqué à un domaine différent : l'analyse des logs de serveur.

\ Imaginez que vous avez des données de log structurées. Au lieu de les fournir à une IA sous forme de JSON brut, nous pouvons les traduire en une "phrase de log".

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

Ce script simple démontre le modèle architectural de base. La transformation Data-to-Sentence est la clé. Elle nous permet de prendre n'importe quelles données structurées et de les représenter dans le langage natif des modèles d'IA les plus puissants, débloquant un nouveau monde de raisonnement multimodal.

Opportunité de marché
Logo de WHY
Cours WHY(WHY)
$0.00000001433
$0.00000001433$0.00000001433
-13.15%
USD
Graphique du prix de WHY (WHY) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

Les gains de 8% du Bitcoin font déjà de septembre 2025 son deuxième meilleur mois

Les gains de 8% du Bitcoin font déjà de septembre 2025 son deuxième meilleur mois

L'article Bitcoin : des gains de 8% font déjà de septembre 2025 son deuxième meilleur mois est apparu sur BitcoinEthereumNews.com. Points clés : Bitcoin défie les tendances saisonnières en ajoutant 8%, faisant de ce septembre son meilleur depuis 2012. Septembre 2025 devrait connaître une hausse de 20% pour devenir le plus fort jamais enregistré pour Bitcoin. La volatilité des prix du BTC atteint des niveaux rarement observés auparavant dans un cycle haussier inhabituel. Bitcoin (BTC) a gagné plus ce septembre que n'importe quelle année depuis 2012, un nouveau record en marché haussier. Les données historiques de prix de CoinGlass et BiTBO confirment qu'à 8%, la hausse de septembre 2025 pour Bitcoin est la deuxième meilleure jamais enregistrée. Bitcoin évite le "Rektember" avec des gains de 8% Septembre est traditionnellement le mois le plus faible de Bitcoin, avec des pertes moyennes d'environ 8%. Rendements mensuels BTC/USD (capture d'écran). Source : CoinGlass Cette année, les enjeux sont élevés pour la saisonnalité du prix BTC, car les modèles historiques exigent le prochain pic du marché haussier et d'autres actifs risqués établissent de nouveaux sommets historiques répétés. Alors que l'or et le S&P 500 sont en phase de découverte de prix, BTC/USD s'est enroulé tout au long de septembre après avoir établi ses propres nouveaux sommets le mois précédent. Même avec "seulement" 8%, cependant, la performance de ce septembre est actuellement suffisante pour en faire le plus fort de Bitcoin en 13 ans. La seule fois où le neuvième mois de l'année a été plus rentable pour les haussiers de Bitcoin était en 2012, lorsque BTC/USD a gagné environ 19,8%. L'année dernière, la hausse a culminé à 7,3%. Rendements mensuels BTC/USD. Source : BiTBO La volatilité des prix BTC disparaît Les chiffres soulignent une année de pic de marché haussier très inhabituelle pour Bitcoin. En relation : BTC 'anticipe' ce qui arrive : 5 choses à savoir sur Bitcoin cette semaine Contrairement aux marchés haussiers précédents, la volatilité des prix BTC a disparu en 2025, contre les attentes des participants au marché de longue date basées sur les performances antérieures. Les données de CoinGlass montrent que la volatilité chute à des niveaux jamais vus depuis plus d'une décennie, avec une baisse particulièrement forte à partir d'avril. Volatilité historique de Bitcoin (capture d'écran). Source : CoinGlass La société d'analyse on-chain Glassnode, quant à elle, souligne le...
Partager
BitcoinEthereumNews2025/09/18 11:09
L'or au comptant atteint un nouveau sommet historique

L'or au comptant atteint un nouveau sommet historique

PANews a rapporté le 22 décembre que l'or au comptant a franchi le sommet du 20 octobre de 4 381,4 $ l'once, établissant un nouveau record historique.
Partager
PANews2025/12/22 09:47
Informations importantes d'hier soir et de ce matin (21 décembre-22 décembre)

Informations importantes d'hier soir et de ce matin (21 décembre-22 décembre)

Les contrats à terme sur l'argent de Shanghai ont franchi la barre des 16 000 yuans/kg, établissant un nouveau sommet historique. Le contrat principal des contrats à terme sur l'argent de Shanghai a augmenté de plus de
Partager
PANews2025/12/22 10:30