glossAPI
Εργασίες θεμελίωσης ενός Ελληνικού LLM Ανοιχτού Κώδικα --- Ground work for a Greek Open Source LLM
Stars: 86
The glossAPI project aims to develop a Greek language model as open-source software, with code licensed under EUPL and data under Creative Commons BY-SA. The project focuses on collecting and evaluating open text sources in Greek, with efforts to prioritize and gather textual data sets. The project encourages contributions through the CONTRIBUTING.md file and provides resources in the wiki for viewing and modifying recorded sources. It also welcomes ideas and corrections through issue submissions. The project emphasizes the importance of open standards, ethically secured data, privacy protection, and addressing digital divides in the context of artificial intelligence and advanced language technologies.
README:
Στόχος της ΕΕΛΛΑΚ είναι η ανάπτυξη ενός Ελληνικού γλωσσικού μοντέλου ανοιχτού λογισμικού του glossAPI( a Greek Open Source LLM ), που ο κώδικας του θα διατίθεται με την άδεια ανοιχτού λογισμικού EUPL και τα δεδομένα του με την άδεια Creative Commons BY-SA.
TODO: Translate documentation to English, other languages
🚀 Τρέχουσα δράση: Καταγραφή - αποτίμηση ανοιχτών πηγών κειμένου στα Ελληνικά
➡️ Συμβουλευτείτε το CONTRIBUTING.md για να συνεισφέρετε στην 🎯 συγκέντρωση και προτεραιοποίηση συνόλων κειμενικών δεδομένων στα Ελληνικά.
➡️ Επισκεφτείτε το wiki για να δείτε ή να τροποποιήσετε τις καταγεγραμμένες πηγές.
➡️ Έχετε μια ιδέα που δεν βλέπετε στο αποθετήριο; Θέλετε να προτείνετε μια διόρθωση; 🚩 Ανοίξτε ένα Issue!
🆕: Δοκιμάστε τον λεξικό κατατεμαχιστή (παράδειγμα χρήσης) και ✏️ δώστε μας ανατροφοδότηση στα Issues!
➡️ Μια εφαρμογή χρήσης εμπνευσμένη από τις ψηφιακές ανθρωπιστικές επιστήμες
➡️ Αν θέλετε να ενημερώνεστε για το glossAPI μπορείτε να εγγραφείτε στο https://newsletters.ellak.gr/
📻 Κρατήστε επαφή:
- Matrix (#Συστηθείτε με ένα σύντομο μήνυμα.)
Το έργο καταγραφής των διαθέσιμων πηγών στα ελληνικά εντάσσεται στις προσπάθειες που άμεσα ξεκίνησε η ΕΕΛΛΑΚ με την δημοσιοποίηση του ChatGPT και τη παγκόσμια άνοδο του ενδιαφέροντος για τα προηγμένα λογοπαραγωγικά νευρωνικά δίκτυα.
Προσπερνώντας διάφορες δημώδεις και παραπλανητικές επικεντρώσεις στο θέμα της τεχνητής νοημοσύνης, σαν Οργανισμός Άνοιχτών Τεχνολογικών, βλέπουμε την τεχνητή νοημοσύνη ως μια νέα τεχνολογία οργάνωσης και προσπέλασης της ανθρώπινης γνώσης, η οποία έχει μεγάλη πρακτικη αξία, για αυτό οφείλουμε από τα πρώτα ήδη στάδια να αναδείξουμε την σημασία των ανοιχτών προτύπων, των ανοιχτών και δεοντολογικά εξασφαλισμένων δεδομένων, την προστασία της ιδιωτικότητας, την πρόνοια για τα ψηφιακά χάσματα, την ασφάλεια των δεδομένων.
Σημαντικό μέρος της προσέγγισής μας έχει εστιάσει στο ενδεχόμενο υιοθέτησης των προηγμένων γλωσσικών τεχνολογικών στο πλαίσιο της ηλεκτρονικής διακυβέρνησης. Είναι άμεσα πιθανό, και δυνατό σε ένα βαθμό, οι δημόσιες υπηρεσίες να αξιοποιήσουν τις τεχνολογίες αυτές είτε για να εξυπηρετήσουν τον πολίτη μέσω ψηφιακών βοηθών είτε να διεκπεραιώσουν εσωτερικές τους διεργασίες που ειδάλλως θα απαιτούσαν μεγάλη ανθρωποπροσπάθεια.
Για αυτό είναι αποπροσανατολιστικές οι δημώδεις συζητήσεις για υπαρξιακή απειλή της ανθρωπότητας και τον υπερανθρωπισμό. Υπάρχουν άμεσα ζητήματα πολύ πιο πρακτικής φύσεως, με άμεσο κοινωνικό αντίκτυπο, τα οποία είναι καλύτερο να συζητάμε αυτή τη στιγμή. Όπως επίσης μεγάλος θα είναι ο αντίκτυπος στις εργασιακές σχέσεις (βλ Άρθρο μας για την απεργία των σεναριογράφων στο Χόλυγουντ, και τις διεκδικήσεις τους για οριοθέητηση της ΤΝ στο αντικείμενο της εργασίας τους).
Ας σταθούμε προς στιγμήν σε αυτά τα θέματα: Λογοπαραγωγική τεχνολογία στο δημόσιο τομέα, στην εξυπηρέτηση του πολίτη, στις εσωτερικές διεργασίες της ηλεκτρονικής διακυβέρνησης. Εισαγωγή της λογοπαραγωγικής τεχνολογίας στις εργασιακές σχέσεις. Καθίσταται αμέσως σαφές, ότι η απουσία ενός ικανού μοντέλου στην ελληνική γλώσσα αποτελεί ορατό κίνδυνο επίτασης των ψηφιακών χασμάτων τόσο στην σχέση πολίτη-κράτους, όσο και στην προσπάθεια για την εύρεση εργασίας.
Όσο καινοτόμος, ωστόσο, και αν είναι, η τεχνολογία των λογοπαραγωγικών νευρωνικών δικτύων, δεν παύει να αποτελεί προέκταση των προηγούμενων τεχνολογικών μας και ειδικά των τεχνικών υπολογιστικής επεξεργασίας του λόγου, την μηχανική μάθηση, τα δεδομένα μεγάλου όγκου. Από αυτές τις τεχνολογίες δεν κληρονομούν μόνο τα πλεονεκτήματα αλλά και τους κινδύνους, ειδικά σε ένα νομικό περιβάλλον προστατευτισμού των τεχνολογικών ολιγοπωλίων, που απασχολούν την κοινότητα των ανοιχτών τεχνολογιών εδώ και αρκετά χρόνια.
Δυστυχώς η ετοιμότητα της ελληνικής γλώσσας να εισαχθεί δυναμικά σε αυτές τις νέες τεχνολογίες είναι αποδυναμωμένη από πολιτικές και στρατηγικές επιλογές που εκτείνονται αρκετές δεκαετίες στο παρελθόν. Ήδη διαμορφώνονται ελληνικά LLM's κλειστού κώδικά από όσες δομές διαθέτουν υψηλής ποιότητας δεδομένα για την εκπαίδευσή τους. Η κοινότητά μας όμως παραμένει φτωχή σε δεδομένα, για αυτό επιμένουμε ότι η δημιουργία ανοιχτού, δεοντολογικά αποκτημένου, μηχανικά προσπελάσιμου, και αντιπροσωπευτικού της ελληνικής γλώσσας σώματος παραδειγμάτων εκπαίδευσης, παραμένει και θα παραμείνει αυτοσκοπός για την κοινότητα του ανοιχτού λογισμικού.
Οι προσπάθειές μας οδηγήθηκαν λοιπόν ακριβώς σε αυτό: την αποδελτίωση και καταγραφή των διαθέσιμων πηγών στα ελληνικά με άδεια επανάχρησης. Υπάρχει όμως ένα παράδοξο σε αυτό: Όσα δεδομένα είναι εύκολα προσβάσιμα, βρίσκονται ήδη σε μηχανικά αναγνώσιμη μορφή, ή είναι επισημειωμένα με κάποιον τρόπο, σίγουρα θα έχουν ήδη βρεί το δρόμο τους προς τα υπάρχοντα γλωσσικά μοντέλα.
Τα περισσότερα δεδομένα υψηλής γλωσσικής αξίας για την ιστορικότητα και την ποικιλία της ελληνικής γλώσσας, που αντανακλούν και τις διάφορα κειμενικά είδη και ποικιλίες χρήσης της, είναι σε ένα βαθμό ψηφιοποιημένα, αλλά στην πλειοψηφία των περιπτώσεων όχι μηχανικά προσπελάσιμα, είτε λόγω εχθρικής προς το χρήστη δόμηση της πλοήγησης της ιστοσελίδας, είτε επειδή απουσιάζει η οπτική αναγνώριση χαρακτήρων, είτε επειδή δεν υπάρχουν άδειες επανάχρησης.
Που οδεύουμε, λοιπόν; Τα δεδομένα του προβλήματος είναι σαφή. Τα εύκολα προσβάσιμα δεδομένα έχουν αξιοποηθεί ήδη. Τα δύσκολα προσβάσιμα δεδομένα περιλαμβάνουν ένα δυσνόητο μέγεθος ανθρωποπροσπάθειας. Τα κλειστά δεδομένα είναι και θα παραμείνουν κλειστά. Είναι σχεδόν βέβαιο ότι σύντομα θα δούμε ένα κλειστό γλωσσικό μοντέλο στην ελληνική γλώσσα. Αλλά αυτό δεν θα αλλάξει σε τίποτα την δυστοπική διαπίστωση ότι οι ανοιχτές τεχνολογίες θα δεχτούν ένα πρωτόγνωρο πλήγμα. Η κύρια τεχνολογία της εποχής που έρχεται θα έχει ξεκινήσει με ένα αποφασιστικό πλεονέκτημα των κλειστών τεχνολογιών και των κλειστών δεδομένων. Πέρα από τις ακτιβιστικές μας ανησυχίες όμως, οι δυσμενείς επιπτώσεις έχουν επισημανθεί και από τις διεθνείς οργανώσεις, καθώς και από την Ευρωπαϊκή Επιτροπή.
Η ιδέα ότι τα δεδομένα των πολιτών ενός ολόκληρου κράτους μπορούν να μεταφορτωθούν στους απομακρυσμένους υπολογιστές ενός υπερατλαντικού τεχνολογικού ολιγοπωλίου, με όλους τους κινδύνους ασφάλειας και ιδιωτικότητας, είναι απλά επικίνδυνη, και αντίθετη σε μια σειρά από ευρωπαϊκές οδηγίες στις οποίες έχει δεσμευτεί η Ελλάδα. Η εύκολη λύση της προμήθειας λογοπαραγωγικής τεχνολογίας από τεχνολογικά ολογοπώλια του εξωτερικού είναι ένα ναρκοπέδιο για την ασφάλεια, την ιδιωτικότητα, την καινοτομία, και οι επιπτώσεις του θα φανούν σύντομα.
📰 Διαβάστε την αρθρογραφία μας για τα γλωσσικά μοντέλα και τις διεθνείς εξελίξεις
Νευρωνικά Δίκτυα και Μηχανική Μάθηση
Ανοιχτός Κώδικας και Προηγμένα Γλωσσικά Νευρωνικά Δίκτυα
Τί ξέρουμε για τις ραγδαίες εξελίξεις στην OpenAI...
For Tasks:
Click tags to check more tools for each tasksFor Jobs:
Alternative AI tools for glossAPI
Similar Open Source Tools
glossAPI
The glossAPI project aims to develop a Greek language model as open-source software, with code licensed under EUPL and data under Creative Commons BY-SA. The project focuses on collecting and evaluating open text sources in Greek, with efforts to prioritize and gather textual data sets. The project encourages contributions through the CONTRIBUTING.md file and provides resources in the wiki for viewing and modifying recorded sources. It also welcomes ideas and corrections through issue submissions. The project emphasizes the importance of open standards, ethically secured data, privacy protection, and addressing digital divides in the context of artificial intelligence and advanced language technologies.
mlcourse.ai
mlcourse.ai is an open Machine Learning course by OpenDataScience (ods.ai), led by Yury Kashnitsky (yorko). The course offers a perfect balance between theory and practice, with math formulae in lectures and practical assignments including Kaggle Inclass competitions. It is currently in a self-paced mode, guiding users through 10 weeks of content covering topics from Pandas to Gradient Boosting. The course provides articles, lectures, and assignments to enhance understanding and application of machine learning concepts.
higlabo
HigLabo is a versatile C# library that provides various features such as an OpenAI client library, the fastest object mapper, a DAL generator, and support for functionalities like Mail, FTP, RSS, and Twitter. The library includes modules like HigLabo.OpenAI for chat completion and Groq support, HigLabo.Anthropic for Anthropic Claude AI, HigLabo.Mapper for object mapping, DbSharp for stored procedure calls, HigLabo.Mime for MIME parsing, HigLabo.Mail for SMTP, POP3, and IMAP functionalities, and other utility modules like HigLabo.Data, HigLabo.Converter, and HigLabo.Net.Slack. HigLabo is designed to be easy to use and highly customizable, offering performance optimizations for tasks like object mapping and database access.
Awesome-LLM-Prune
This repository is dedicated to the pruning of large language models (LLMs). It aims to serve as a comprehensive resource for researchers and practitioners interested in the efficient reduction of model size while maintaining or enhancing performance. The repository contains various papers, summaries, and links related to different pruning approaches for LLMs, along with author information and publication details. It covers a wide range of topics such as structured pruning, unstructured pruning, semi-structured pruning, and benchmarking methods. Researchers and practitioners can explore different pruning techniques, understand their implications, and access relevant resources for further study and implementation.
dolma
Dolma is a dataset and toolkit for curating large datasets for (pre)-training ML models. The dataset consists of 3 trillion tokens from a diverse mix of web content, academic publications, code, books, and encyclopedic materials. The toolkit provides high-performance, portable, and extensible tools for processing, tagging, and deduplicating documents. Key features of the toolkit include built-in taggers, fast deduplication, and cloud support.
OpenNARS-for-Applications
OpenNARS-for-Applications is an implementation of a Non-Axiomatic Reasoning System, a general-purpose reasoner that adapts under the Assumption of Insufficient Knowledge and Resources. The system combines the logic and conceptual ideas of OpenNARS, event handling and procedure learning capabilities of ANSNA and 20NAR1, and the control model from ALANN. It is written in C, offers improved reasoning performance, and has been compared with Reinforcement Learning and means-end reasoning approaches. The system has been used in real-world applications such as assisting first responders, real-time traffic surveillance, and experiments with autonomous robots. It has been developed with a pragmatic mindset focusing on effective implementation of existing theory.
GenerativeAI
GenerativeAI is a repository focused on experimentation with various tools and techniques in the field of generative artificial intelligence. It covers topics such as large language models, frameworks like Langchain and llamaindex, vector databases, RAG systems, evaluations, performance optimization, production, use cases, and more.
quantizr
Quanta is a new kind of Content Management platform, with powerful features including: Wikis & micro-blogging, ChatGPT Question Answering, Document collaboration and publishing, PDF Generation, Secure messaging with (E2E Encryption), Video/audio recording & sharing, File sharing, Podcatcher (RSS Reader), and many other features related to managing hierarchical content.
NanoLLM
NanoLLM is a tool designed for optimized local inference for Large Language Models (LLMs) using HuggingFace-like APIs. It supports quantization, vision/language models, multimodal agents, speech, vector DB, and RAG. The tool aims to provide efficient and effective processing for LLMs on local devices, enhancing performance and usability for various AI applications.
only_train_once
Only Train Once (OTO) is an automatic, architecture-agnostic DNN training and compression framework that allows users to train a general DNN from scratch or a pretrained checkpoint to achieve high performance and slimmer architecture simultaneously in a one-shot manner without fine-tuning. The framework includes features for automatic structured pruning and erasing operators, as well as hybrid structured sparse optimizers for efficient model compression. OTO provides tools for pruning zero-invariant group partitioning, constructing pruned models, and visualizing pruning and erasing dependency graphs. It supports the HESSO optimizer and offers a sanity check for compliance testing on various DNNs. The repository also includes publications, installation instructions, quick start guides, and a roadmap for future enhancements and collaborations.
nlp-llms-resources
The 'nlp-llms-resources' repository is a comprehensive resource list for Natural Language Processing (NLP) and Large Language Models (LLMs). It covers a wide range of topics including traditional NLP datasets, data acquisition, libraries for NLP, neural networks, sentiment analysis, optical character recognition, information extraction, semantics, topic modeling, multilingual NLP, domain-specific LLMs, vector databases, ethics, costing, books, courses, surveys, aggregators, newsletters, papers, conferences, and societies. The repository provides valuable information and resources for individuals interested in NLP and LLMs.
DiagrammerGPT
DiagrammerGPT is an official implementation of a two-stage text-to-diagram generation framework that utilizes the layout guidance capabilities of LLMs to create accurate open-domain, open-platform diagrams. The tool first generates a diagram plan based on a prompt, which includes dense entities, fine-grained relationships, and precise layouts. Then, it refines the plan iteratively before generating the final diagram. DiagrammerGPT has been used to create various diagrams such as layers of the earth, Earth's position around the sun, and different types of rocks with labels.
LLMs-at-DoD
This repository contains tutorials for using Large Language Models (LLMs) in the U.S. Department of Defense. The tutorials utilize open-source frameworks and LLMs, allowing users to run them in their own cloud environments. The repository is maintained by the Defense Digital Service and welcomes contributions from users.
phoenix
Phoenix is a tool that provides MLOps and LLMOps insights at lightning speed with zero-config observability. It offers a notebook-first experience for monitoring models and LLM Applications by providing LLM Traces, LLM Evals, Embedding Analysis, RAG Analysis, and Structured Data Analysis. Users can trace through the execution of LLM Applications, evaluate generative models, explore embedding point-clouds, visualize generative application's search and retrieval process, and statistically analyze structured data. Phoenix is designed to help users troubleshoot problems related to retrieval, tool execution, relevance, toxicity, drift, and performance degradation.
aitviewer
A set of tools to visualize and interact with sequences of 3D data with cross-platform support on Windows, Linux, and macOS. It provides a native Python interface for loading and displaying SMPL[-H/-X], MANO, FLAME, STAR, and SUPR sequences in an interactive viewer. Users can render 3D data on top of images, edit SMPL sequences and poses, export screenshots and videos, and utilize a high-performance ModernGL-based rendering pipeline. The tool is designed for easy use and hacking, with features like headless mode, remote mode, animatable camera paths, and a built-in extensible GUI.
Awesome-LLM-in-Social-Science
This repository compiles a list of academic papers that evaluate, align, simulate, and provide surveys or perspectives on the use of Large Language Models (LLMs) in the field of Social Science. The papers cover various aspects of LLM research, including assessing their alignment with human values, evaluating their capabilities in tasks such as opinion formation and moral reasoning, and exploring their potential for simulating social interactions and addressing issues in diverse fields of Social Science. The repository aims to provide a comprehensive resource for researchers and practitioners interested in the intersection of LLMs and Social Science.
For similar tasks
phospho
Phospho is a text analytics platform for LLM apps. It helps you detect issues and extract insights from text messages of your users or your app. You can gather user feedback, measure success, and iterate on your app to create the best conversational experience for your users.
OpenFactVerification
Loki is an open-source tool designed to automate the process of verifying the factuality of information. It provides a comprehensive pipeline for dissecting long texts into individual claims, assessing their worthiness for verification, generating queries for evidence search, crawling for evidence, and ultimately verifying the claims. This tool is especially useful for journalists, researchers, and anyone interested in the factuality of information.
open-parse
Open Parse is a Python library for visually discerning document layouts and chunking them effectively. It is designed to fill the gap in open-source libraries for handling complex documents. Unlike text splitting, which converts a file to raw text and slices it up, Open Parse visually analyzes documents for superior LLM input. It also supports basic markdown for parsing headings, bold, and italics, and has high-precision table support, extracting tables into clean Markdown formats with accuracy that surpasses traditional tools. Open Parse is extensible, allowing users to easily implement their own post-processing steps. It is also intuitive, with great editor support and completion everywhere, making it easy to use and learn.
spaCy
spaCy is an industrial-strength Natural Language Processing (NLP) library in Python and Cython. It incorporates the latest research and is designed for real-world applications. The library offers pretrained pipelines supporting 70+ languages, with advanced neural network models for tasks such as tagging, parsing, named entity recognition, and text classification. It also facilitates multi-task learning with pretrained transformers like BERT, along with a production-ready training system and streamlined model packaging, deployment, and workflow management. spaCy is commercial open-source software released under the MIT license.
NanoLLM
NanoLLM is a tool designed for optimized local inference for Large Language Models (LLMs) using HuggingFace-like APIs. It supports quantization, vision/language models, multimodal agents, speech, vector DB, and RAG. The tool aims to provide efficient and effective processing for LLMs on local devices, enhancing performance and usability for various AI applications.
ontogpt
OntoGPT is a Python package for extracting structured information from text using large language models, instruction prompts, and ontology-based grounding. It provides a command line interface and a minimal web app for easy usage. The tool has been evaluated on test data and is used in related projects like TALISMAN for gene set analysis. OntoGPT enables users to extract information from text by specifying relevant terms and provides the extracted objects as output.
lima
LIMA is a multilingual linguistic analyzer developed by the CEA LIST, LASTI laboratory. It is Free Software available under the MIT license. LIMA has state-of-the-art performance for more than 60 languages using deep learning modules. It also includes a powerful rules-based mechanism called ModEx for extracting information in new domains without annotated data.
liboai
liboai is a simple C++17 library for the OpenAI API, providing developers with access to OpenAI endpoints through a collection of methods and classes. It serves as a spiritual port of OpenAI's Python library, 'openai', with similar structure and features. The library supports various functionalities such as ChatGPT, Audio, Azure, Functions, Image DALL·E, Models, Completions, Edit, Embeddings, Files, Fine-tunes, Moderation, and Asynchronous Support. Users can easily integrate the library into their C++ projects to interact with OpenAI services.
For similar jobs
weave
Weave is a toolkit for developing Generative AI applications, built by Weights & Biases. With Weave, you can log and debug language model inputs, outputs, and traces; build rigorous, apples-to-apples evaluations for language model use cases; and organize all the information generated across the LLM workflow, from experimentation to evaluations to production. Weave aims to bring rigor, best-practices, and composability to the inherently experimental process of developing Generative AI software, without introducing cognitive overhead.
agentcloud
AgentCloud is an open-source platform that enables companies to build and deploy private LLM chat apps, empowering teams to securely interact with their data. It comprises three main components: Agent Backend, Webapp, and Vector Proxy. To run this project locally, clone the repository, install Docker, and start the services. The project is licensed under the GNU Affero General Public License, version 3 only. Contributions and feedback are welcome from the community.
oss-fuzz-gen
This framework generates fuzz targets for real-world `C`/`C++` projects with various Large Language Models (LLM) and benchmarks them via the `OSS-Fuzz` platform. It manages to successfully leverage LLMs to generate valid fuzz targets (which generate non-zero coverage increase) for 160 C/C++ projects. The maximum line coverage increase is 29% from the existing human-written targets.
LLMStack
LLMStack is a no-code platform for building generative AI agents, workflows, and chatbots. It allows users to connect their own data, internal tools, and GPT-powered models without any coding experience. LLMStack can be deployed to the cloud or on-premise and can be accessed via HTTP API or triggered from Slack or Discord.
VisionCraft
The VisionCraft API is a free API for using over 100 different AI models. From images to sound.
kaito
Kaito is an operator that automates the AI/ML inference model deployment in a Kubernetes cluster. It manages large model files using container images, avoids tuning deployment parameters to fit GPU hardware by providing preset configurations, auto-provisions GPU nodes based on model requirements, and hosts large model images in the public Microsoft Container Registry (MCR) if the license allows. Using Kaito, the workflow of onboarding large AI inference models in Kubernetes is largely simplified.
PyRIT
PyRIT is an open access automation framework designed to empower security professionals and ML engineers to red team foundation models and their applications. It automates AI Red Teaming tasks to allow operators to focus on more complicated and time-consuming tasks and can also identify security harms such as misuse (e.g., malware generation, jailbreaking), and privacy harms (e.g., identity theft). The goal is to allow researchers to have a baseline of how well their model and entire inference pipeline is doing against different harm categories and to be able to compare that baseline to future iterations of their model. This allows them to have empirical data on how well their model is doing today, and detect any degradation of performance based on future improvements.
Azure-Analytics-and-AI-Engagement
The Azure-Analytics-and-AI-Engagement repository provides packaged Industry Scenario DREAM Demos with ARM templates (Containing a demo web application, Power BI reports, Synapse resources, AML Notebooks etc.) that can be deployed in a customer’s subscription using the CAPE tool within a matter of few hours. Partners can also deploy DREAM Demos in their own subscriptions using DPoC.