screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「text」の検索結果
39 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。
paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。
.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。
データラベル化と注釈化を行うためのツールです。
マシンラーニングシステムの理論と実装に関する本。
このリポジトリは大規モデルの無学習に関するリソースをまとめたものです。
ノードベースのビジュアルプログラミングツールです。
Unsloth Studioは、オープンモデルのトレーニングと実行を支援するWebUIです。このライブラリは、Gemma4、Qwen3.5などのオープンモデルのテストとトレーニングを支援するために使われます。
SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。
SANAは、高解像度画像生成モデルSANAを紹介する本研究であり、低計算コストで優れた高解像度画像を生成できる。
長時間のビデオ生成を実現するためのモデルのサポートを紹介している。
オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。
このリポジトリでは、トークナイザーの最適化を提供しています。
電気生理信号から表現を学習し、脳コンピューターインターフェースの開発を支援する。
ドキュメントを構造化するために使えるオープンソースのETLソリューション。
LLMを利用するために、セマンティック検索やLLMのオーケストレーションなどを行えるフレームワーク。
テキスト分析、センチメント分析や単語分割などを行えるライブラリ。
データをAIに変換する基盤を構築することで、ビジネス上の問題を解決できます。この研究では、Model eXecution + Context ProtocolであるMXCPを提案し、データの変換を簡素化した上で、AIアプ
マルチラギングスピーチ生成やクリエイティブボイスデザイン、ルートライフクライミングなど、テクスチャファリーTTSの最新技術を実現するためのフレームワークです。
presidioは、テキスト、画像、構造化データを含む敏感データを検出、削除、マスク、アノニマイズするオープンソースフレームワークです。自然言語処理、パターンマッチング、カスタマイズ可能なパイプラインをサポートします。
大規模言語モデルのテスト時間調整に関する調査のリポジトリ。
分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に
このリポジトリは自然言語処理(NLP)に関するリソースをまとめたものです。
この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive
Emotion-driven Style Controlを使用してテキストから声の変換が実行され、感情のあるテキストをエモタイザブルな声に変換することが可能になります。
このリポジトリでは、Lecture Learning Modelsに対してReinforcement Learningを実行するライブラリを提供しています。
Open-dLLMはOpen diffusion language modelを公開しており、コード生成の前トレーニング、評価、推論、チェックポイントを公開しています。
このリポジトリはChatGPT、GPT-3、FlanT5などのLLMsの在り方や、in-context learningとprompt engineeringのリソースをまとめたものです。
画像エディティング用推論モデルの改良方法についての公式実装であるFlowEdit。
MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。
Matcha-TTSは、高速で条件付き流のマッチングを実現するTTSアーキテクチャであり、話者の特徴を考慮する。
CVPR 2023で発表されたCustom Diffusionは、テキストから画像を生成するプロセスをカスタマイズできるDiffusionモデルです。テキストからイメージを生成する際の要件を設定できるので、画像生成の柔軟
PaddleNLPは、分類モデルと言語モデルを簡単に使用できる強力なライブラリであり、モデルズーという素晴らしいモデル・ザーのコレクションを備えています。
rasaは、テキストやボイスベースの会話を自動化するオープンソースの機械学習フレームワークです。自然言語理解(NLU)、会話管理、 slackやFacebook等への接続など、幅広い機能を提供しています。
LLMを使用して、自然言語処理における情報抽出を行うためのPythonライブラリです。
💫 Industrial-strength Natural Language Processing (NLP) in Python
VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。